Maskinlæringsarbejdsgang
Lad os se på arbejdsgangen, du ville følge for at opbygge et succesfuldt maskinlæringsprojekt.
Trin 1. Indsamling af data
Start med at definere problemet og identificere, hvilke data der er nødvendige. Vælg en metrisk til at evaluere ydeevnen og fastlæg, hvilket resultat der anses for tilfredsstillende.
Indsaml derefter dataene, ofte fra flere kilder såsom databaser, og bring dem i et format, der er egnet til behandling i Python.
Hvis dataene allerede findes i en .csv-fil, kan forbehandling påbegyndes med det samme, og dette trin kan springes over.
Eksempel
Et hospital stiller historiske patientjournaler fra sin database til rådighed sammen med demografiske oplysninger fra en national sundhedsdatabase, samlet i en CSV-fil. Opgaven er at forudsige patientgenindlæggelser, hvor nøjagtighed over 80% er defineret som den målelige grænse for tilfredsstillende ydeevne.
Trin 2. Forbehandling af data
Dette trin består af:
- Datavask: håndtering af manglende værdier, ikke-numeriske data osv.;
- Exploratory data analysis (EDA): analyse og visualisering af datasættet for at finde mønstre og relationer mellem variable og generelt opnå indsigt i, hvordan træningssættet kan forbedres;
- Feature Engineering: udvælgelse, transformation eller oprettelse af nye variable baseret på EDA-indsigter for at forbedre modellens ydeevne.
Eksempel
I hospitalsdatasættet kan manglende værdier for centrale målinger som blodtryk udfyldes, og kategoriske variable som race kan konverteres til numeriske koder til analyse.
Trin 3. Modellering
Dette trin omfatter:
- Valg af model: udvælgelse af en eller flere modeller, der er mest egnede til problemet, baseret på algoritmens egenskaber og eksperimentelle resultater;
- Justering af hyperparametre: tilpasning af hyperparametre for at opnå den bedst mulige ydeevne.
Tænk på hyperparametre som knapper og drejeknapper på en maskine, som du kan justere for at kontrollere, hvordan den fungerer. I maskinlæring er disse "knapper og drejeknapper" indstillinger (værdier), som en data scientist justerer før de begynder at træne deres model. For eksempel kan hyperparametre omfatte, hvor længe modellen skal trænes, eller hvor detaljeret træningen skal være.
- Evaluering af modellen: måling af ydeevne på usete data.
Eksempel
En klassifikationsmodel vælges til at forudsige patientgenindlæggelser, hvilket passer til binære udfald (genindlagt eller ej). Dens hyperparametre justeres for at optimere ydeevnen. Endelig udføres evaluering på et separat validerings- eller testdatasæt for at kontrollere, hvor godt modellen generaliserer ud over træningsdataene.
Trin 4. Implementering
Efter opnåelse af en finjusteret model med tilfredsstillende ydeevne er det næste skridt implementering. Den implementerede model skal løbende overvåges, forbedres efter behov og opdateres med nye data, efterhånden som de bliver tilgængelige. Denne proces fører ofte tilbage til Trin 1.
Eksempel
Når modellen forudsiger genindlæggelser præcist, bliver den integreret i hospitalets databasesystem for at advare personalet om højrisikopatienter ved indlæggelse, hvilket forbedrer patientplejen.
Nogle af de begreber, der nævnes her, kan lyde ukendte, men vi vil gennemgå dem mere detaljeret senere i dette kursus.
Datapræprocessering og modellering kan udføres med scikit-learn-biblioteket (importeret som sklearn). De følgende kapitler fokuserer på grundlæggende præprocesseringstrin og opbygning af pipelines. Modellering introduceres derefter ved hjælp af k-nearest neighbors-algoritmen (KNeighborsClassifier i sklearn) som eksempel. Dette omfatter opbygning af modellen, tuning af hyperparametre og evaluering af ydeevne.
1. Hvad er det primære formål med "Hent data"-trinnet i et maskinlæringsprojekt?
2. Hvilket af følgende beskriver bedst vigtigheden af "Datapræprocessering"-trinnet i en maskinlæringsprojektarbejdsgang?
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain more about the data preprocessing steps?
What is feature engineering and why is it important?
How does the k-nearest neighbors algorithm work in this context?
Awesome!
Completion rate improved to 3.13
Maskinlæringsarbejdsgang
Stryg for at vise menuen
Lad os se på arbejdsgangen, du ville følge for at opbygge et succesfuldt maskinlæringsprojekt.
Trin 1. Indsamling af data
Start med at definere problemet og identificere, hvilke data der er nødvendige. Vælg en metrisk til at evaluere ydeevnen og fastlæg, hvilket resultat der anses for tilfredsstillende.
Indsaml derefter dataene, ofte fra flere kilder såsom databaser, og bring dem i et format, der er egnet til behandling i Python.
Hvis dataene allerede findes i en .csv-fil, kan forbehandling påbegyndes med det samme, og dette trin kan springes over.
Eksempel
Et hospital stiller historiske patientjournaler fra sin database til rådighed sammen med demografiske oplysninger fra en national sundhedsdatabase, samlet i en CSV-fil. Opgaven er at forudsige patientgenindlæggelser, hvor nøjagtighed over 80% er defineret som den målelige grænse for tilfredsstillende ydeevne.
Trin 2. Forbehandling af data
Dette trin består af:
- Datavask: håndtering af manglende værdier, ikke-numeriske data osv.;
- Exploratory data analysis (EDA): analyse og visualisering af datasættet for at finde mønstre og relationer mellem variable og generelt opnå indsigt i, hvordan træningssættet kan forbedres;
- Feature Engineering: udvælgelse, transformation eller oprettelse af nye variable baseret på EDA-indsigter for at forbedre modellens ydeevne.
Eksempel
I hospitalsdatasættet kan manglende værdier for centrale målinger som blodtryk udfyldes, og kategoriske variable som race kan konverteres til numeriske koder til analyse.
Trin 3. Modellering
Dette trin omfatter:
- Valg af model: udvælgelse af en eller flere modeller, der er mest egnede til problemet, baseret på algoritmens egenskaber og eksperimentelle resultater;
- Justering af hyperparametre: tilpasning af hyperparametre for at opnå den bedst mulige ydeevne.
Tænk på hyperparametre som knapper og drejeknapper på en maskine, som du kan justere for at kontrollere, hvordan den fungerer. I maskinlæring er disse "knapper og drejeknapper" indstillinger (værdier), som en data scientist justerer før de begynder at træne deres model. For eksempel kan hyperparametre omfatte, hvor længe modellen skal trænes, eller hvor detaljeret træningen skal være.
- Evaluering af modellen: måling af ydeevne på usete data.
Eksempel
En klassifikationsmodel vælges til at forudsige patientgenindlæggelser, hvilket passer til binære udfald (genindlagt eller ej). Dens hyperparametre justeres for at optimere ydeevnen. Endelig udføres evaluering på et separat validerings- eller testdatasæt for at kontrollere, hvor godt modellen generaliserer ud over træningsdataene.
Trin 4. Implementering
Efter opnåelse af en finjusteret model med tilfredsstillende ydeevne er det næste skridt implementering. Den implementerede model skal løbende overvåges, forbedres efter behov og opdateres med nye data, efterhånden som de bliver tilgængelige. Denne proces fører ofte tilbage til Trin 1.
Eksempel
Når modellen forudsiger genindlæggelser præcist, bliver den integreret i hospitalets databasesystem for at advare personalet om højrisikopatienter ved indlæggelse, hvilket forbedrer patientplejen.
Nogle af de begreber, der nævnes her, kan lyde ukendte, men vi vil gennemgå dem mere detaljeret senere i dette kursus.
Datapræprocessering og modellering kan udføres med scikit-learn-biblioteket (importeret som sklearn). De følgende kapitler fokuserer på grundlæggende præprocesseringstrin og opbygning af pipelines. Modellering introduceres derefter ved hjælp af k-nearest neighbors-algoritmen (KNeighborsClassifier i sklearn) som eksempel. Dette omfatter opbygning af modellen, tuning af hyperparametre og evaluering af ydeevne.
1. Hvad er det primære formål med "Hent data"-trinnet i et maskinlæringsprojekt?
2. Hvilket af følgende beskriver bedst vigtigheden af "Datapræprocessering"-trinnet i en maskinlæringsprojektarbejdsgang?
Tak for dine kommentarer!