Aprenda Dividindo Dados em Blocos | Trabalhando com Grandes Conjuntos de Dados

Deslize para mostrar o menu

O tratamento de conjuntos de dados grandes que não cabem na memória de uma só vez exige uma abordagem diferente de simplesmente carregar o arquivo inteiro. Ao tentar carregar um arquivo CSV muito grande no pandas usando a função read_csv padrão, podem ocorrer erros de memória ou lentidão significativa. Para evitar isso, é possível dividir os dados em partes menores e mais gerenciáveis, processando cada uma de forma independente. Essa técnica é especialmente útil em cenários como:

Análise de grandes arquivos de log;
Processamento de exportações de dados de bancos de dados;
Manipulação de dados de séries temporais coletados ao longo de longos períodos.

Dividir os dados em partes permite processar apenas uma pequena fração do conjunto de dados por vez, mantendo o uso de memória baixo e possibilitando o trabalho eficiente mesmo em hardware modesto. Por exemplo, se for necessário calcular estatísticas ou filtrar linhas de um arquivo com milhões de registros, a leitura em partes permite processar cada segmento e, se necessário, agregar os resultados conforme avança. Essa abordagem também é útil ao transmitir dados para um pipeline de aprendizado de máquina ou realizar limpeza incremental dos dados.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 1. Capítulo 2