Lära Överanpassning | Välja Den Bästa Modellen

Överanpassning

Tänk på de två regressionslinjerna nedan. Vilken är bättre?

Mätvärdena indikerar att den andra modellen är bättre, så vi använder den för att förutsäga X_new = [0.2, 0.5, 2.7]. Men efter att ha jämfört förutsägelserna med de faktiska värdena presterar den första modellen bättre.

Detta sker eftersom den andra modellen överanpassar — den är för komplex och anpassar sig för mycket till träningsdatan, vilket leder till att den misslyckas med att generalisera till nya exempel.

Underfitting

Underfitting uppstår när en modell är för enkel för att passa även träningsdatan, vilket också leder till dåliga prediktioner på osedd data.

Det är möjligt att försöka avgöra om modellen underanpassar eller överanpassar visuellt.

Eftersom det inte går att visualisera högdimensionella modeller behövs ett annat sätt att upptäcka överanpassning eller underanpassning.

Tränings- och testuppdelning

För att uppskatta prestanda på osedda data delas datasettet upp i en träningsmängd och en testmängd med kända målvariabler.

Modellen tränas på träningsmängden och beräknar metrik på både tränings- och testmängden för att jämföra prestanda.

Uppdelningen måste vara slumpmässig. Vanligtvis går 20–30 % till testmängden och 70–80 % används för träning. Scikit-learn erbjuder ett enkelt sätt att göra detta.

Till exempel, för att dela upp träningsuppsättningen i 70% träning/30% test, kan du använda följande kod:

from sklearn.model_selection import train_test_split # import the function
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 4. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 5.26

Svep för att visa menyn