Opdeling af Data i Segmenter
Stryg for at vise menuen
Håndtering af store datasæt, der ikke kan være i hukommelsen på én gang, kræver en anden tilgang end blot at indlæse hele filen. Når du forsøger at indlæse en enorm CSV-fil i pandas med den almindelige read_csv-funktion, kan du støde på hukommelsesfejl eller betydelige forsinkelser. For at undgå dette kan du opdele dataene i mindre, mere håndterbare bidder og behandle hver enkelt uafhængigt. Denne teknik er især nyttig i situationer som:
- Analyse af store logfiler;
- Behandling af dataeksport fra databaser;
- Arbejde med tidsseriedata indsamlet over lange perioder.
Opdeling af data i bidder gør det muligt kun at behandle en lille del af datasættet ad gangen, hvilket holder hukommelsesforbruget lavt og gør det muligt at arbejde effektivt selv på beskedent hardware. For eksempel, hvis du skal beregne statistikker eller filtrere rækker fra en fil med millioner af poster, betyder indlæsning i bidder, at du kan behandle hver del og, om nødvendigt, aggregere resultaterne undervejs. Denne tilgang er også nyttig, når du vil streame data ind i en maskinlæringspipeline eller udføre inkrementel datarensning.
1234567891011import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat