Fluxo de Trabalho de Machine Learning
Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.
Etapa 1. Obtenção dos Dados
Definição do problema, escolha de uma métrica de desempenho e determinação do que caracteriza um bom resultado. Em seguida, coleta dos dados necessários a partir das fontes disponíveis e organização em um formato pronto para uso em Python. Se os dados já estiverem em um arquivo CSV, o pré-processamento pode começar imediatamente.
Exemplo
Um hospital compila registros de pacientes e dados demográficos em um arquivo CSV. O objetivo é prever readmissões, buscando acurácia superior a 80%.
Etapa 2. Pré-processamento dos Dados
Esta etapa inclui:
- Limpeza de dados: tratamento de valores ausentes e entradas não numéricas;
- EDA: análise e visualização dos dados para compreender relações e detectar problemas;
- Engenharia de atributos: seleção ou criação de atributos que melhorem o desempenho do modelo.
Exemplo
Valores ausentes (por exemplo, pressão arterial) são preenchidos e atributos categóricos (por exemplo, raça) são convertidos em formato numérico.
Etapa 3. Modelagem
Esta etapa inclui:
- Escolha de um modelo com base no tipo de problema e experimentos;
- Ajuste de hiperparâmetros para melhorar o desempenho;
- Avaliação do modelo em dados não vistos.
Hiperparâmetros são como controles ajustáveis que definem como o modelo é treinado—como duração do treinamento ou complexidade do modelo.
Exemplo
Um modelo de classificação é selecionado para prever readmissão (sim/não). Após o ajuste, ele é avaliado em um conjunto de validação/teste para verificar a generalização.
Etapa 4. Implantação
Quando um modelo apresenta bom desempenho, ele é implantado em sistemas reais. O modelo deve ser monitorado, atualizado com novos dados e aprimorado ao longo do tempo, frequentemente reiniciando o ciclo a partir da Etapa 1.
Exemplo
O modelo é integrado ao sistema hospitalar para sinalizar pacientes de alto risco na admissão, auxiliando a equipe a agir precocemente.
Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.
O pré-processamento de dados e a modelagem podem ser realizados com scikit-learn. Os próximos capítulos apresentam fluxos de trabalho de pré-processamento e pipelines, seguidos pela modelagem utilizando k-nearest neighbors (KNeighborsClassifier), incluindo treinamento, ajuste e avaliação.
1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?
2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 3.13
Fluxo de Trabalho de Machine Learning
Deslize para mostrar o menu
Vamos analisar o fluxo de trabalho necessário para construir um projeto de aprendizado de máquina bem-sucedido.
Etapa 1. Obtenção dos Dados
Definição do problema, escolha de uma métrica de desempenho e determinação do que caracteriza um bom resultado. Em seguida, coleta dos dados necessários a partir das fontes disponíveis e organização em um formato pronto para uso em Python. Se os dados já estiverem em um arquivo CSV, o pré-processamento pode começar imediatamente.
Exemplo
Um hospital compila registros de pacientes e dados demográficos em um arquivo CSV. O objetivo é prever readmissões, buscando acurácia superior a 80%.
Etapa 2. Pré-processamento dos Dados
Esta etapa inclui:
- Limpeza de dados: tratamento de valores ausentes e entradas não numéricas;
- EDA: análise e visualização dos dados para compreender relações e detectar problemas;
- Engenharia de atributos: seleção ou criação de atributos que melhorem o desempenho do modelo.
Exemplo
Valores ausentes (por exemplo, pressão arterial) são preenchidos e atributos categóricos (por exemplo, raça) são convertidos em formato numérico.
Etapa 3. Modelagem
Esta etapa inclui:
- Escolha de um modelo com base no tipo de problema e experimentos;
- Ajuste de hiperparâmetros para melhorar o desempenho;
- Avaliação do modelo em dados não vistos.
Hiperparâmetros são como controles ajustáveis que definem como o modelo é treinado—como duração do treinamento ou complexidade do modelo.
Exemplo
Um modelo de classificação é selecionado para prever readmissão (sim/não). Após o ajuste, ele é avaliado em um conjunto de validação/teste para verificar a generalização.
Etapa 4. Implantação
Quando um modelo apresenta bom desempenho, ele é implantado em sistemas reais. O modelo deve ser monitorado, atualizado com novos dados e aprimorado ao longo do tempo, frequentemente reiniciando o ciclo a partir da Etapa 1.
Exemplo
O modelo é integrado ao sistema hospitalar para sinalizar pacientes de alto risco na admissão, auxiliando a equipe a agir precocemente.
Alguns dos termos mencionados aqui podem soar desconhecidos, mas serão discutidos em mais detalhes ao longo deste curso.
O pré-processamento de dados e a modelagem podem ser realizados com scikit-learn. Os próximos capítulos apresentam fluxos de trabalho de pré-processamento e pipelines, seguidos pela modelagem utilizando k-nearest neighbors (KNeighborsClassifier), incluindo treinamento, ajuste e avaliação.
1. Qual é o principal objetivo da etapa "Obter os dados" em um projeto de aprendizado de máquina?
2. Qual das alternativas a seguir melhor descreve a importância da etapa "Pré-processamento de dados" no fluxo de trabalho de um projeto de aprendizado de máquina?
Obrigado pelo seu feedback!