Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Challenge: Grote Datasets Filteren | Werken met Grote Datasets
Grote Data Verwerking met Python
Sectie 1. Hoofdstuk 5
single

single

Challenge: Grote Datasets Filteren

Veeg om het menu te tonen

Stel je voor dat je de taak hebt om een enorm CSV-bestand te analyseren met miljoenen records—te groot om in één keer in het geheugen te laden. Het doel is om alleen die rijen te extraheren waarbij de waarde in een specifieke kolom een bepaalde drempel overschrijdt, en de gefilterde resultaten op te slaan in een nieuw bestand. Dit scenario komt vaak voor bij grootschalige data-analyse, waar efficiënte, geheugenbesparende verwerking essentieel is.

Taak

Veeg om te beginnen met coderen

Implementeer een functie die een groot CSV-bestand in delen verwerkt en alleen de rijen schrijft naar een nieuw bestand waarbij de waarde in de opgegeven kolom groter is dan de opgegeven drempel.

  • Lees het invoer-CSV-bestand in delen van grootte chunk_size.
  • Filter voor elk deel de rijen waarbij de kolom gespecificeerd door column groter is dan threshold.
  • Schrijf alle gefilterde rijen naar het uitvoer-CSV-bestand, inclusief de koprij.
  • Als geen enkele rij aan de voorwaarde voldoet, schrijf dan alleen de koprij naar het uitvoerbestand.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

some-alt