Conjunto de Entrenamiento
En el aprendizaje supervisado o no supervisado, el conjunto de entrenamiento suele presentarse en formato tabular.
Un ejemplo es el diabetes dataset, que se utiliza para predecir si una persona tiene diabetes. Contiene registros de 768 mujeres con parámetros como edad, índice de masa corporal y presión arterial. Estos parámetros se denominan características.
El conjunto de datos también incluye una columna 'Outcome'
que indica si la persona tiene diabetes. Esta es la variable objetivo.
Cada fila de la tabla es una instancia (también llamada punto de datos o muestra), que representa información sobre un solo individuo.
La tabla (conjunto de entrenamiento) tiene una columna objetivo, lo que significa que está etiquetada.
La tarea consiste en entrenar el modelo de ML con este conjunto de entrenamiento y, una vez entrenado, podrá predecir para otras personas (nuevas instancias) si tienen diabetes basándose únicamente en las características.
Este conjunto de entrenamiento es un ejemplo de un conjunto de datos sesgado, ya que contiene exclusivamente información sobre mujeres de al menos 21 años. Por lo tanto, el modelo puede producir predicciones menos precisas para hombres o para mujeres menores de 21 años, ya que no ha sido entrenado con estos grupos.
Al programar, las columnas de características suelen asignarse a X
y las columnas objetivo se asignan como y
.
Y las características de nuevas instancias se asignan como X_new
.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
What is the difference between features and the target variable?
Can you explain what X, y, and X_new represent in machine learning?
How does the model use X_new to make predictions?
Awesome!
Completion rate improved to 3.13
Conjunto de Entrenamiento
Desliza para mostrar el menú
En el aprendizaje supervisado o no supervisado, el conjunto de entrenamiento suele presentarse en formato tabular.
Un ejemplo es el diabetes dataset, que se utiliza para predecir si una persona tiene diabetes. Contiene registros de 768 mujeres con parámetros como edad, índice de masa corporal y presión arterial. Estos parámetros se denominan características.
El conjunto de datos también incluye una columna 'Outcome'
que indica si la persona tiene diabetes. Esta es la variable objetivo.
Cada fila de la tabla es una instancia (también llamada punto de datos o muestra), que representa información sobre un solo individuo.
La tabla (conjunto de entrenamiento) tiene una columna objetivo, lo que significa que está etiquetada.
La tarea consiste en entrenar el modelo de ML con este conjunto de entrenamiento y, una vez entrenado, podrá predecir para otras personas (nuevas instancias) si tienen diabetes basándose únicamente en las características.
Este conjunto de entrenamiento es un ejemplo de un conjunto de datos sesgado, ya que contiene exclusivamente información sobre mujeres de al menos 21 años. Por lo tanto, el modelo puede producir predicciones menos precisas para hombres o para mujeres menores de 21 años, ya que no ha sido entrenado con estos grupos.
Al programar, las columnas de características suelen asignarse a X
y las columnas objetivo se asignan como y
.
Y las características de nuevas instancias se asignan como X_new
.
¡Gracias por tus comentarios!