Types of Data
Swipe um das Menü anzuzeigen
Jede Spalte (Feature) in einem Trainingsdatensatz besitzt einen zugehörigen Datentyp. Diese Datentypen lassen sich in numerisch, kategorisch und Datum und/oder Zeit gruppieren.
Die meisten ML-Algorithmen funktionieren nur mit numerischen Daten gut, daher müssen kategoriale und Datums-/Zeitwerte in Zahlen umgewandelt werden.
Für Datum und Zeit können Merkmale wie 'year', 'month' und ähnliche extrahiert werden, abhängig von der Aufgabe. Diese sind bereits numerische Werte und können direkt verwendet werden.
Kategorische Daten sind etwas schwieriger zu verarbeiten.
Arten von kategorischen Daten
Kategorische Daten werden in zwei Typen unterteilt:
-
Ordinale Daten sind eine Art von kategorischen Daten, bei denen die Kategorien einer natürlichen Reihenfolge folgen. Zum Beispiel Bildungsniveau (von Grundschule bis Promotion) oder Bewertungen (von sehr schlecht bis sehr gut) usw.;
-
Nominale Daten sind eine Art von kategorischen Daten, die keiner natürlichen Reihenfolge folgen. Zum Beispiel Name, Geschlecht, Herkunftsland usw.
Die Umwandlung von ordinalen und nominalen Datentypen in numerische Werte erfordert unterschiedliche Ansätze, daher müssen sie getrennt behandelt werden.
Es gibt bessere Methoden, um Datumsangaben in numerische Werte umzuwandeln, die jedoch den Rahmen dieses Einführungskurses sprengen. Wenn beispielsweise nur das Merkmal 'month' verwendet wird, wird nicht berücksichtigt, dass der 12. Monat tatsächlich näher am 1. als am 9. liegt.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen