Dividindo Dados em Blocos
Deslize para mostrar o menu
O tratamento de conjuntos de dados grandes que não cabem na memória de uma só vez exige uma abordagem diferente de simplesmente carregar o arquivo inteiro. Ao tentar carregar um arquivo CSV muito grande no pandas usando a função read_csv padrão, podem ocorrer erros de memória ou lentidão significativa. Para evitar isso, é possível dividir os dados em partes menores e mais gerenciáveis, processando cada uma de forma independente. Essa técnica é especialmente útil em cenários como:
- Análise de grandes arquivos de log;
- Processamento de exportações de dados de bancos de dados;
- Manipulação de dados de séries temporais coletados ao longo de longos períodos.
Dividir os dados em partes permite processar apenas uma pequena fração do conjunto de dados por vez, mantendo o uso de memória baixo e possibilitando o trabalho eficiente mesmo em hardware modesto. Por exemplo, se for necessário calcular estatísticas ou filtrar linhas de um arquivo com milhões de registros, a leitura em partes permite processar cada segmento e, se necessário, agregar os resultados conforme avança. Essa abordagem também é útil ao transmitir dados para um pipeline de aprendizado de máquina ou realizar limpeza incremental dos dados.
1234567891011import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo