Conteúdo do Curso
ML Introduction with scikit-learn
1. Conceitos de Aprendizado de Máquina
2. Pré-processamento de Dados com Scikit-learn
ML Introduction with scikit-learn
Fluxo de Trabalho de Aprendizado de Máquina
Vamos analisar o fluxo de trabalho que você seguiria para construir um projeto bem-sucedido de Aprendizado de Máquina.
Passo 1. Obtenha os dados
Para esta etapa, você precisa definir o problema e quais dados são necessários. Em seguida, escolha uma métrica e defina qual resultado seria satisfatório.
Depois, você precisa reunir esses dados, normalmente a partir de várias fontes (bancos de dados) em um formato apropriado para processamento posterior em Python.
Às vezes, os dados já estão em formato .csv
e prontos para serem pré-processados, e esta etapa pode ser omitida.
Passo 2. Preprocessamento dos dados
Este passo consiste em:
- Limpeza de dados - lidar com valores ausentes, dados não numéricos, etc.
- Análise exploratória de dados (AED) - analisar e visualizar o conjunto de dados para encontrar padrões e relações entre características e, de modo geral, obter percepções sobre como o conjunto de treinamento pode ser aprimorado.
- Engenharia de Recursos - selecionar, transformar ou criar novos recursos com base nas percepções da AED para melhorar o desempenho do modelo.
Etapa 3. Modelagem
Esta etapa envolve:
- Escolha do modelo - nessa fase, você escolhe um ou mais modelos que apresentem o melhor desempenho para o seu problema. Ela combina o entendimento do algoritmo e experimentos com modelos para encontrar aqueles adequados para o seu problema.
- Ajuste de Hiperparâmetros - um processo de descoberta dos hiperparâmetros que resultam no melhor desempenho.
- Avaliando o modelo - medindo o desempenho do modelo em dados não vistos anteriormente.
Etapa 4. Implantação
Uma vez que você tenha um modelo bem ajustado que apresente um bom desempenho, você pode implantá-lo. Mas não é aí que seu trabalho termina. Na maioria das vezes, você também vai querer monitorar o desempenho do modelo implantado, encontrar formas de melhorá-lo e alimentá-lo com novos dados conforme são coletados. Isso te leva de volta à etapa 1.
Nota
Não se preocupe se alguns termos lhe parecem desconhecidos. Muitos deles serão descritos neste curso e alguns em outros cursos. Este curso é introdutório e abrange vários tópicos novos. Se você não tem experiência com Aprendizado de Máquina, é normal ter dificuldades com alguns tópicos; o mais importante será repetido neste curso ou em outros cursos, e você conseguirá acompanhar!
Etapas de Pré-processamento de Dados e Modelagem podem ser realizadas utilizando a biblioteca scikit-learn
(importada como sklearn
). É sobre isso que o restante do curso trata.
Aprenderemos alguns passos básicos de pré-processamento e como construir pipelines. Após isso, discutiremos a etapa de modelagem usando o KNearestClassifier
como exemplo de modelo. Isso inclui a construção de um modelo, o ajuste de hiperparâmetros e a avaliação do modelo.
Tudo estava claro?
Conteúdo do Curso
ML Introduction with scikit-learn
1. Conceitos de Aprendizado de Máquina
2. Pré-processamento de Dados com Scikit-learn
ML Introduction with scikit-learn
Fluxo de Trabalho de Aprendizado de Máquina
Vamos analisar o fluxo de trabalho que você seguiria para construir um projeto bem-sucedido de Aprendizado de Máquina.
Passo 1. Obtenha os dados
Para esta etapa, você precisa definir o problema e quais dados são necessários. Em seguida, escolha uma métrica e defina qual resultado seria satisfatório.
Depois, você precisa reunir esses dados, normalmente a partir de várias fontes (bancos de dados) em um formato apropriado para processamento posterior em Python.
Às vezes, os dados já estão em formato .csv
e prontos para serem pré-processados, e esta etapa pode ser omitida.
Passo 2. Preprocessamento dos dados
Este passo consiste em:
- Limpeza de dados - lidar com valores ausentes, dados não numéricos, etc.
- Análise exploratória de dados (AED) - analisar e visualizar o conjunto de dados para encontrar padrões e relações entre características e, de modo geral, obter percepções sobre como o conjunto de treinamento pode ser aprimorado.
- Engenharia de Recursos - selecionar, transformar ou criar novos recursos com base nas percepções da AED para melhorar o desempenho do modelo.
Etapa 3. Modelagem
Esta etapa envolve:
- Escolha do modelo - nessa fase, você escolhe um ou mais modelos que apresentem o melhor desempenho para o seu problema. Ela combina o entendimento do algoritmo e experimentos com modelos para encontrar aqueles adequados para o seu problema.
- Ajuste de Hiperparâmetros - um processo de descoberta dos hiperparâmetros que resultam no melhor desempenho.
- Avaliando o modelo - medindo o desempenho do modelo em dados não vistos anteriormente.
Etapa 4. Implantação
Uma vez que você tenha um modelo bem ajustado que apresente um bom desempenho, você pode implantá-lo. Mas não é aí que seu trabalho termina. Na maioria das vezes, você também vai querer monitorar o desempenho do modelo implantado, encontrar formas de melhorá-lo e alimentá-lo com novos dados conforme são coletados. Isso te leva de volta à etapa 1.
Nota
Não se preocupe se alguns termos lhe parecem desconhecidos. Muitos deles serão descritos neste curso e alguns em outros cursos. Este curso é introdutório e abrange vários tópicos novos. Se você não tem experiência com Aprendizado de Máquina, é normal ter dificuldades com alguns tópicos; o mais importante será repetido neste curso ou em outros cursos, e você conseguirá acompanhar!
Etapas de Pré-processamento de Dados e Modelagem podem ser realizadas utilizando a biblioteca scikit-learn
(importada como sklearn
). É sobre isso que o restante do curso trata.
Aprenderemos alguns passos básicos de pré-processamento e como construir pipelines. Após isso, discutiremos a etapa de modelagem usando o KNearestClassifier
como exemplo de modelo. Isso inclui a construção de um modelo, o ajuste de hiperparâmetros e a avaliação do modelo.
Tudo estava claro?