Lære Opdeling af Data i Segmenter | Arbejde med Store Datasæt

Stryg for at vise menuen

Håndtering af store datasæt, der ikke kan være i hukommelsen på én gang, kræver en anden tilgang end blot at indlæse hele filen. Når du forsøger at indlæse en enorm CSV-fil i pandas med den almindelige read_csv-funktion, kan du støde på hukommelsesfejl eller betydelige forsinkelser. For at undgå dette kan du opdele dataene i mindre, mere håndterbare bidder og behandle hver enkelt uafhængigt. Denne teknik er især nyttig i situationer som:

Analyse af store logfiler;
Behandling af dataeksport fra databaser;
Arbejde med tidsseriedata indsamlet over lange perioder.

Opdeling af data i bidder gør det muligt kun at behandle en lille del af datasættet ad gangen, hvilket holder hukommelsesforbruget lavt og gør det muligt at arbejde effektivt selv på beskedent hardware. For eksempel, hvis du skal beregne statistikker eller filtrere rækker fra en fil med millioner af poster, betyder indlæsning i bidder, at du kan behandle hver del og, om nødvendigt, aggregere resultaterne undervejs. Denne tilgang er også nyttig, når du vil streame data ind i en maskinlæringspipeline eller udføre inkrementel datarensning.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 2

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 1. Kapitel 2