Merkmalsauswahl vs. Merkmalsextraktion
Hochdimensionale Datensätze enthalten oft mehr Merkmale, als tatsächlich benötigt werden. Die Reduktion der Merkmale kann auf zwei Hauptstrategien erfolgen: Merkmalsauswahl und Merkmalextraktion.
- Merkmalsauswahl bedeutet, nur die wichtigsten ursprünglichen Merkmale beizubehalten – vergleichbar mit dem Auswählen der Lieblingsfrüchte aus einem Korb;
- Merkmalextraktion erstellt neue Merkmale durch Kombination oder Transformation der ursprünglichen – wie das Vermischen aller Früchte zu einem Smoothie.
Die Hauptkomponentenanalyse (PCA) ist eine gängige Methode der Merkmalextraktion, die später noch ausführlich behandelt wird.
12345678910111213141516171819202122import pandas as pd from sklearn.decomposition import PCA # Example dataset data = { 'height': [150, 160, 170, 180], 'weight': [50, 60, 70, 80], 'age': [20, 25, 30, 35], 'score': [85, 90, 95, 100] } df = pd.DataFrame(data) # Feature selection: pick only 'height' and 'weight' selected_features = df[['height', 'weight']] print("Selected features (feature selection):") print(selected_features) # Feature extraction: combine features using PCA (placeholder, details later) pca = PCA(n_components=2) extracted_features = pca.fit_transform(df) print("\nExtracted features (feature extraction, via PCA):") print(extracted_features)
PCA ist eine leistungsstarke Technik zur Merkmalextraktion, die aus den ursprünglichen Daten neue Merkmale (Hauptkomponenten) erzeugt. Die Details zur Funktionsweise von PCA werden in den kommenden Kapiteln behandelt.
Die Reduzierung der Anzahl von Merkmalen kann dabei helfen, Muster zu erkennen, die in höheren Dimensionen verborgen sein könnten. Mithilfe von Visualisierung lassen sich ausgewählte Merkmale darstellen, um Cluster oder Trends deutlicher sichtbar zu machen. Beispielsweise kann das Plotten nur der relevantesten Merkmale mit seaborn Zusammenhänge in den Daten hervorheben und so die Interpretation und Analyse erleichtern.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 8.33
Merkmalsauswahl vs. Merkmalsextraktion
Swipe um das Menü anzuzeigen
Hochdimensionale Datensätze enthalten oft mehr Merkmale, als tatsächlich benötigt werden. Die Reduktion der Merkmale kann auf zwei Hauptstrategien erfolgen: Merkmalsauswahl und Merkmalextraktion.
- Merkmalsauswahl bedeutet, nur die wichtigsten ursprünglichen Merkmale beizubehalten – vergleichbar mit dem Auswählen der Lieblingsfrüchte aus einem Korb;
- Merkmalextraktion erstellt neue Merkmale durch Kombination oder Transformation der ursprünglichen – wie das Vermischen aller Früchte zu einem Smoothie.
Die Hauptkomponentenanalyse (PCA) ist eine gängige Methode der Merkmalextraktion, die später noch ausführlich behandelt wird.
12345678910111213141516171819202122import pandas as pd from sklearn.decomposition import PCA # Example dataset data = { 'height': [150, 160, 170, 180], 'weight': [50, 60, 70, 80], 'age': [20, 25, 30, 35], 'score': [85, 90, 95, 100] } df = pd.DataFrame(data) # Feature selection: pick only 'height' and 'weight' selected_features = df[['height', 'weight']] print("Selected features (feature selection):") print(selected_features) # Feature extraction: combine features using PCA (placeholder, details later) pca = PCA(n_components=2) extracted_features = pca.fit_transform(df) print("\nExtracted features (feature extraction, via PCA):") print(extracted_features)
PCA ist eine leistungsstarke Technik zur Merkmalextraktion, die aus den ursprünglichen Daten neue Merkmale (Hauptkomponenten) erzeugt. Die Details zur Funktionsweise von PCA werden in den kommenden Kapiteln behandelt.
Die Reduzierung der Anzahl von Merkmalen kann dabei helfen, Muster zu erkennen, die in höheren Dimensionen verborgen sein könnten. Mithilfe von Visualisierung lassen sich ausgewählte Merkmale darstellen, um Cluster oder Trends deutlicher sichtbar zu machen. Beispielsweise kann das Plotten nur der relevantesten Merkmale mit seaborn Zusammenhänge in den Daten hervorheben und so die Interpretation und Analyse erleichtern.
Danke für Ihr Feedback!