Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utmaning: Aggregering av Data i Segment | Working with Large Datasets
Hantering av Stora Datamängder med Python
Avsnitt 1. Kapitel 4
single

single

Utmaning: Aggregering av Data i Segment

Svep för att visa menyn

När du arbetar med stora datamängder behöver du ofta utföra aggregeringar utan att läsa in hela filen i minnet. En vanlig uppgift är att summera värdena i en specifik kolumn i en mycket stor CSV-fil. Eftersom filen kanske inte får plats i minnet kan du bearbeta den i hanterbara delar med hjälp av pandas-funktionen read_csv() och parametern chunksize.

För varje del beräknar du summan av den önskade kolumnen och aggregerar sedan dessa delsummeringar för att få totalsumman. Detta tillvägagångssätt är effektivt och skalbart, vilket gör att du kan hantera filer av praktiskt taget vilken storlek som helst så länge varje del får plats i minnet.

Uppgift

Svep för att börja koda

Skriv en funktion som returnerar den totala summan av en angiven kolumn i en stor CSV-fil genom att läsa filen i delar (chunks).

  • Beräkna summan av den angivna kolumnen för varje del.
  • Summera resultaten från alla delar för att få den totala summan.
  • Returnera den totala summan som ett enda värde.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 4
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

some-alt