Funksjonsutvalg vs. Funksjonsekstraksjon
Datasett med høy dimensjonalitet har ofte flere egenskaper enn nødvendig. Du kan redusere antall egenskaper ved hjelp av to hovedstrategier: egenskapsutvalg og egenskapsekstraksjon.
- Egenskapsutvalg innebærer å beholde kun de viktigste opprinnelige egenskapene – som å velge dine favorittfrukter fra en kurv;
- Egenskapsekstraksjon lager nye egenskaper ved å kombinere eller transformere de opprinnelige – som å blande alle fruktene til en smoothie.
Principal Component Analysis (PCA) er en vanlig metode for egenskapsekstraksjon, som du vil utforske nærmere senere.
12345678910111213141516171819202122import pandas as pd from sklearn.decomposition import PCA # Example dataset data = { 'height': [150, 160, 170, 180], 'weight': [50, 60, 70, 80], 'age': [20, 25, 30, 35], 'score': [85, 90, 95, 100] } df = pd.DataFrame(data) # Feature selection: pick only 'height' and 'weight' selected_features = df[['height', 'weight']] print("Selected features (feature selection):") print(selected_features) # Feature extraction: combine features using PCA (placeholder, details later) pca = PCA(n_components=2) extracted_features = pca.fit_transform(df) print("\nExtracted features (feature extraction, via PCA):") print(extracted_features)
PCA er en kraftig teknikk for egenskapsekstraksjon som lager nye egenskaper (hovedkomponenter) fra de opprinnelige dataene. Detaljene om hvordan PCA fungerer vil bli gjennomgått i kommende kapitler.
Reduksjon av antall funksjoner kan hjelpe deg med å se mønstre som ellers kan være skjult i høyere dimensjoner. Ved å bruke visualisering kan du plotte utvalgte funksjoner for å avdekke klynger eller trender tydeligere. For eksempel kan plotting av kun de mest relevante funksjonene med seaborn gjøre relasjoner i dataene dine mer synlige, noe som gjør det enklere å tolke og analysere.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 8.33
Funksjonsutvalg vs. Funksjonsekstraksjon
Sveip for å vise menyen
Datasett med høy dimensjonalitet har ofte flere egenskaper enn nødvendig. Du kan redusere antall egenskaper ved hjelp av to hovedstrategier: egenskapsutvalg og egenskapsekstraksjon.
- Egenskapsutvalg innebærer å beholde kun de viktigste opprinnelige egenskapene – som å velge dine favorittfrukter fra en kurv;
- Egenskapsekstraksjon lager nye egenskaper ved å kombinere eller transformere de opprinnelige – som å blande alle fruktene til en smoothie.
Principal Component Analysis (PCA) er en vanlig metode for egenskapsekstraksjon, som du vil utforske nærmere senere.
12345678910111213141516171819202122import pandas as pd from sklearn.decomposition import PCA # Example dataset data = { 'height': [150, 160, 170, 180], 'weight': [50, 60, 70, 80], 'age': [20, 25, 30, 35], 'score': [85, 90, 95, 100] } df = pd.DataFrame(data) # Feature selection: pick only 'height' and 'weight' selected_features = df[['height', 'weight']] print("Selected features (feature selection):") print(selected_features) # Feature extraction: combine features using PCA (placeholder, details later) pca = PCA(n_components=2) extracted_features = pca.fit_transform(df) print("\nExtracted features (feature extraction, via PCA):") print(extracted_features)
PCA er en kraftig teknikk for egenskapsekstraksjon som lager nye egenskaper (hovedkomponenter) fra de opprinnelige dataene. Detaljene om hvordan PCA fungerer vil bli gjennomgått i kommende kapitler.
Reduksjon av antall funksjoner kan hjelpe deg med å se mønstre som ellers kan være skjult i høyere dimensjoner. Ved å bruke visualisering kan du plotte utvalgte funksjoner for å avdekke klynger eller trender tydeligere. For eksempel kan plotting av kun de mest relevante funksjonene med seaborn gjøre relasjoner i dataene dine mer synlige, noe som gjør det enklere å tolke og analysere.
Takk for tilbakemeldingene dine!