Lære Dele opp data i biter | Arbeide med store datasett

Sveip for å vise menyen

Håndtering av store datasett som ikke får plass i minnet samtidig, krever en annen tilnærming enn å bare laste inn hele filen. Når du prøver å laste inn en massiv CSV-fil i pandas med den vanlige read_csv-funksjonen, kan du støte på minnefeil eller betydelige ytelsesproblemer. For å unngå dette kan du dele opp dataene i mindre, mer håndterbare deler og behandle hver del uavhengig. Denne teknikken er spesielt nyttig i situasjoner som:

Analyse av store loggfiler;
Behandling av dataeksporter fra databaser;
Arbeid med tidsseriedata samlet inn over lange perioder.

Å dele data i deler gjør at du kun behandler en liten del av datasettet om gangen, noe som holder minnebruken lav og lar deg jobbe effektivt selv på enkel maskinvare. For eksempel, hvis du trenger å beregne statistikk eller filtrere rader fra en fil med millioner av poster, betyr lesing i deler at du kan behandle hver del og, om nødvendig, aggregere resultater underveis. Denne tilnærmingen er også nyttig når du vil strømme data inn i en maskinlæringsprosess eller utføre inkrementell datarensing.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 2

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 1. Kapittel 2