Dele opp data i biter
Sveip for å vise menyen
Håndtering av store datasett som ikke får plass i minnet samtidig, krever en annen tilnærming enn å bare laste inn hele filen. Når du prøver å laste inn en massiv CSV-fil i pandas med den vanlige read_csv-funksjonen, kan du støte på minnefeil eller betydelige ytelsesproblemer. For å unngå dette kan du dele opp dataene i mindre, mer håndterbare deler og behandle hver del uavhengig. Denne teknikken er spesielt nyttig i situasjoner som:
- Analyse av store loggfiler;
- Behandling av dataeksporter fra databaser;
- Arbeid med tidsseriedata samlet inn over lange perioder.
Å dele data i deler gjør at du kun behandler en liten del av datasettet om gangen, noe som holder minnebruken lav og lar deg jobbe effektivt selv på enkel maskinvare. For eksempel, hvis du trenger å beregne statistikk eller filtrere rader fra en fil med millioner av poster, betyr lesing i deler at du kan behandle hver del og, om nødvendig, aggregere resultater underveis. Denne tilnærmingen er også nyttig når du vil strømme data inn i en maskinlæringsprosess eller utføre inkrementell datarensing.
1234567891011import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår