Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Challenge: Gegevensaggregatie in Delen | Werken met Grote Datasets
Grote Data Verwerking met Python
Sectie 1. Hoofdstuk 4
single

single

Challenge: Gegevensaggregatie in Delen

Veeg om het menu te tonen

Bij het werken met grote datasets is het vaak nodig om aggregaties uit te voeren zonder het volledige bestand in het geheugen te laden. Een veelvoorkomende taak is het optellen van de waarden van een specifieke kolom in een zeer groot CSV-bestand. Omdat het bestand mogelijk niet in het geheugen past, kun je het verwerken in beheersbare stukken met behulp van de pandas-functie read_csv() met de parameter chunksize.

Voor elk stuk bereken je de som van de gewenste kolom en vervolgens aggregeer je deze gedeeltelijke totalen om het uiteindelijke totaal te verkrijgen. Deze aanpak is efficiënt en schaalbaar, waardoor je bestanden van vrijwel elke grootte kunt verwerken zolang elk stuk in het geheugen past.

Taak

Veeg om te beginnen met coderen

Schrijf een functie die de totale som retourneert van een opgegeven kolom in een groot CSV-bestand door het bestand in delen te lezen.

  • Bereken voor elk deel de som van de opgegeven kolom.
  • Tel de sommen van alle delen bij elkaar op om de totale som te berekenen.
  • Retourneer de totale som als één enkele waarde.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 4
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

some-alt