Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Desafío 5: Ajuste de Hiperparámetros | Scikit-learn
Desafío de Entrevista en Ciencia de Datos

book
Desafío 5: Ajuste de Hiperparámetros

El ajuste de hiperparámetros consiste en ajustar los parámetros de un algoritmo para optimizar su rendimiento. A diferencia de los parámetros del modelo, que el algoritmo aprende por sí mismo durante el entrenamiento, los hiperparámetros son configuraciones externas preestablecidas antes de que comience el proceso de aprendizaje. El objetivo principal del ajuste de hiperparámetros es encontrar la combinación óptima de hiperparámetros que minimice una función de pérdida predefinida o maximice la precisión, garantizando que el modelo no se ajuste ni por debajo ni por encima de los datos.

Tarea

Swipe to start coding

Realice el ajuste de hiperparámetros en un clasificador RandomForest para predecir los tipos de vino en función de sus propiedades químicas utilizando GridSearchCV y RandomizedSearchCV.

  1. Defina una cuadrícula de parámetros para buscar. El número de árboles debe iterar sobre la lista [10, 20, 30], y la profundidad máxima de los mismos debe iterar sobre [5, 10, 20].
  2. Utilice GridSearchCV para encontrar los mejores hiperparámetros para el clasificador RandomForest con 3 pliegues de datos.
  3. Haga lo mismo con RandomizedSearchCV para 5 conjuntos aleatorios de parámetros.
  4. Compare los resultados de ambos métodos de búsqueda.

Solución

from sklearn.datasets import load_wine
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score

# Load Wine dataset
wine = load_wine()
X = wine.data
y = wine.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# 1. Define the parameter grid
param_grid = {
'n_estimators': [10, 20, 30],
'max_depth': [5, 10, 20],
}

# 2. GridSearchCV
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=3)
grid_search.fit(X_train, y_train)
grid_predictions = grid_search.predict(X_test)

# 3. RandomizedSearchCV
random_search = RandomizedSearchCV(RandomForestClassifier(random_state=42), param_grid, n_iter=5, cv=3)
random_search.fit(X_train, y_train)
random_predictions = random_search.predict(X_test)

# 4. Evaluation
grid_accuracy = accuracy_score(y_test, grid_predictions)
random_accuracy = accuracy_score(y_test, random_predictions)

print('GridSearchCV Accuracy:', grid_accuracy)
print('RandomizedSearchCV Accuracy:', random_accuracy)

print('Best parameters found by GridSearchCV:', grid_search.best_params_)
print('Best parameters found by RandomizedSearchCV:', random_search.best_params_)
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 7. Capítulo 5
from sklearn.datasets import load_wine
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score

# Load Wine dataset
wine = load_wine()
X = wine.data
y = wine.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# 1. Define the parameter grid
param_grid = {
'___': [10, 20, 30],
'___': [5, 10, 20],
}

# 2. GridSearchCV
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), ___, ___=3)
grid_search.fit(X_train, y_train)
grid_predictions = grid_search.predict(X_test)

# 3. RandomizedSearchCV
random_search = RandomizedSearchCV(RandomForestClassifier(random_state=42), ___, ___=5, ___=3)
random_search.fit(X_train, y_train)
random_predictions = random_search.predict(X_test)

# 4. Evaluation
grid_accuracy = accuracy_score(y_test, ___)
random_accuracy = accuracy_score(y_test, ___)

print('GridSearchCV Accuracy:', grid_accuracy)
print('RandomizedSearchCV Accuracy:', random_accuracy)

print('Best parameters found by GridSearchCV:', grid_search.best_params_)
print('Best parameters found by RandomizedSearchCV:', random_search.best_params_)
toggle bottom row
some-alt