Swipe um das Menü anzuzeigen

Im überwachten oder unüberwachten Lernen wird das Trainingsset üblicherweise in tabellarischer Form dargestellt.

Ein Beispiel ist der Diabetes-Datensatz, der verwendet wird, um vorherzusagen, ob eine Person an Diabetes erkrankt ist. Er enthält Datensätze von 768 Frauen mit Parametern wie Alter, Body-Mass-Index und Blutdruck. Diese Parameter werden als Merkmale bezeichnet.

Der Datensatz enthält außerdem eine 'Outcome'-Spalte, die angibt, ob die Person Diabetes hat. Dies ist die Zielvariable.

Jede Zeile in der Tabelle ist eine Instanz (auch Datenpunkt oder Stichprobe genannt) und repräsentiert Informationen über eine einzelne Person.

Die Tabelle (Trainingsset) enthält eine Zielspalte, was bedeutet, dass sie gelabelt ist.

Die Aufgabe besteht darin, das ML-Modell mit diesem Trainingsset zu trainieren. Nach dem Training kann das Modell für andere Personen (neue Instanzen) anhand der Merkmale vorhersagen, ob sie Diabetes haben.

Hinweis

Dieses Trainingsset ist ein Beispiel für einen verzerrten Datensatz, da es ausschließlich Informationen über Frauen ab 21 Jahren enthält. Daher kann das Modell für Männer oder für Frauen unter 21 Jahren weniger genaue Vorhersagen liefern, da es nicht mit diesen Gruppen trainiert wurde.

Beim Programmieren werden Merkmals-Spalten üblicherweise X zugewiesen und Zielspalten als y zugeordnet.

Und Merkmale neuer Instanzen werden als X_new zugewiesen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Trainingssatz