Leer Gegevens Opldelen in Stukken | Werken met Grote Datasets

Veeg om het menu te tonen

Het verwerken van grote datasets die niet in één keer in het geheugen passen, vereist een andere aanpak dan simpelweg het hele bestand laden. Wanneer je probeert een enorm CSV-bestand in pandas te laden met de standaardfunctie read_csv, kun je te maken krijgen met geheugenfouten of aanzienlijke vertragingen. Om dit te voorkomen, kun je de data opdelen in kleinere, beter beheersbare stukken en elk deel afzonderlijk verwerken. Deze techniek is vooral nuttig in situaties zoals:

Analyseren van grote logbestanden;
Verwerken van data-exporten uit databases;
Werken met tijdreeksgegevens die over lange perioden zijn verzameld.

Door data op te splitsen in stukken kun je telkens slechts een klein deel van de dataset verwerken, waardoor het geheugengebruik laag blijft en je efficiënt kunt werken, zelfs op eenvoudige hardware. Als je bijvoorbeeld statistieken moet berekenen of rijen moet filteren uit een bestand met miljoenen records, betekent het lezen in stukken dat je elk deel kunt verwerken en, indien nodig, resultaten kunt samenvoegen terwijl je bezig bent. Deze aanpak is ook handig wanneer je data wilt streamen naar een machine learning-pijplijn of incrementele datacleaning wilt uitvoeren.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 2

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 2