Was ist K-NN
Swipe um das Menü anzuzeigen
Beginnen wir unser Klassifikationsabenteuer mit der einfachsten Aufgabe – binäre Klassifikation. Angenommen, wir möchten Süßigkeiten als Kekse/Nicht-Kekse klassifizieren, basierend auf einem einzigen Merkmal: ihrem Gewicht.
Eine einfache Methode zur Vorhersage der Klasse einer neuen Instanz besteht darin, ihren nächsten Nachbarn zu betrachten. In unserem Beispiel müssen wir eine Süßigkeit finden, deren Gewicht dem der neuen Instanz am ähnlichsten ist.
Das ist die Grundidee hinter k-Nearest Neighbors (k-NN) – es werden lediglich die Nachbarn betrachtet. Der k-NN-Algorithmus geht davon aus, dass ähnliche Dinge in enger Nachbarschaft existieren. Anders ausgedrückt: Ähnliche Dinge befinden sich nahe beieinander. Das k in k-NN steht für die Anzahl der Nachbarn, die bei einer Vorhersage berücksichtigt werden.
Im obigen Beispiel wurde nur 1 Nachbar betrachtet, daher handelt es sich um 1-Nearest Neighbor. In der Regel wird k jedoch auf eine größere Zahl gesetzt, da die Betrachtung nur eines Nachbarn unzuverlässig sein kann:
Wenn k (Anzahl der Nachbarn) größer als eins ist, wird die häufigste Klasse in der Nachbarschaft als Vorhersage gewählt. Hier ein Beispiel für die Vorhersage von zwei neuen Instanzen mit k=3:
Wie Sie sehen, kann eine Änderung von k zu unterschiedlichen Vorhersagen führen.
Gelegentlich erzeugt k-NN ein Unentschieden, wenn mehrere Klassen gleichermaßen unter den nächsten Nachbarn vertreten sind. Die meisten Bibliotheken, einschließlich scikit-learn, lösen Unentschieden auf, indem sie die erste Klasse in ihrer internen Reihenfolge auswählen – ein Aspekt, den man beachten sollte, da dies die Reproduzierbarkeit und Interpretation subtil beeinflussen kann.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen