Conjunto de Treinamento
Se falarmos em Aprendizado Supervisionado ou Não Supervisionado, o conjunto de treinamento normalmente estará em forma de tabela.
Considere o Conjunto de Dados sobre Diabetes, que tem como tarefa prever se uma pessoa tem diabetes.
Ele contém informações sobre 768 mulheres com parâmetros como idade, índice de massa corporal, pressão arterial, etc. Esses parâmetros são chamados de características.
O conjunto de dados também inclui informações sobre se a pessoa tem diabetes em uma coluna chamada 'Outcome'
, que é o que queremos prever. Isso é chamado de alvo.
Cada linha na tabela é chamada de instância (ou ponto de dado ou amostra). Neste caso, é informação sobre uma mulher.
A tabela (conjunto de treinamento) possui uma coluna alvo, o que significa que está rotulada. A tarefa é treinar o modelo de ML com este conjunto de treinamento e, uma vez treinado, ele poderá prever para outras pessoas (novas instâncias) se elas têm diabetes com base apenas em características.
Nota
O conjunto de treinamento deve ser o mais relevante possível para as novas instâncias. Por exemplo, este conjunto de dados sobre diabetes contém informações sobre mulheres com pelo menos 21 anos de idade, portanto, o modelo pode fazer piores previsões em novas instâncias que sejam masculinas comparadas às femininas.
Ao programar, as colunas de características geralmente são atribuídas a X
e as colunas-alvo são designadas como y
.
E os recursos de novas instâncias são atribuídos como X_new
.
No próximo capítulo, discutiremos os tipos de dados que um conjunto de treinamento pode conter e quais problemas podemos enfrentar com nossos dados.
Tudo estava claro?
Conteúdo do Curso
ML Introduction with scikit-learn
1. Conceitos de Aprendizado de Máquina
2. Pré-processamento de Dados com Scikit-learn
ML Introduction with scikit-learn
Conjunto de Treinamento
Se falarmos em Aprendizado Supervisionado ou Não Supervisionado, o conjunto de treinamento normalmente estará em forma de tabela.
Considere o Conjunto de Dados sobre Diabetes, que tem como tarefa prever se uma pessoa tem diabetes.
Ele contém informações sobre 768 mulheres com parâmetros como idade, índice de massa corporal, pressão arterial, etc. Esses parâmetros são chamados de características.
O conjunto de dados também inclui informações sobre se a pessoa tem diabetes em uma coluna chamada 'Outcome'
, que é o que queremos prever. Isso é chamado de alvo.
Cada linha na tabela é chamada de instância (ou ponto de dado ou amostra). Neste caso, é informação sobre uma mulher.
A tabela (conjunto de treinamento) possui uma coluna alvo, o que significa que está rotulada. A tarefa é treinar o modelo de ML com este conjunto de treinamento e, uma vez treinado, ele poderá prever para outras pessoas (novas instâncias) se elas têm diabetes com base apenas em características.
Nota
O conjunto de treinamento deve ser o mais relevante possível para as novas instâncias. Por exemplo, este conjunto de dados sobre diabetes contém informações sobre mulheres com pelo menos 21 anos de idade, portanto, o modelo pode fazer piores previsões em novas instâncias que sejam masculinas comparadas às femininas.
Ao programar, as colunas de características geralmente são atribuídas a X
e as colunas-alvo são designadas como y
.
E os recursos de novas instâncias são atribuídos como X_new
.
No próximo capítulo, discutiremos os tipos de dados que um conjunto de treinamento pode conter e quais problemas podemos enfrentar com nossos dados.
Tudo estava claro?