Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Challenge: Filtering Large Datasets | Arbejde med Store Datasæt
Håndtering af Store Datamængder med Python
Sektion 1. Kapitel 5
single

single

Challenge: Filtering Large Datasets

Stryg for at vise menuen

Forestil dig, at du har til opgave at analysere en enorm CSV-fil med millioner af poster—alt for stor til at blive indlæst i hukommelsen på én gang. Målet er at udtrække kun de rækker, hvor værdien i en bestemt kolonne overstiger en given grænse, og gemme de filtrerede resultater i en ny fil. Dette scenarie er almindeligt inden for storskala dataanalyse, hvor effektiv og hukommelsesvenlig behandling er afgørende.

Opgave

Swipe to start coding

Implementer en funktion, der behandler en stor CSV-fil i segmenter og kun skriver de rækker til en ny fil, hvor værdien i den angivne kolonne er større end den givne tærskelværdi.

  • Læs input-CSV-filen i segmenter af størrelsen chunk_size.
  • For hvert segment, filtrer rækker hvor kolonnen angivet af column er større end threshold.
  • Skriv alle filtrerede rækker til output-CSV-filen, inklusive header-rækken.
  • Hvis ingen rækker opfylder betingelsen, skrives kun headeren til output-filen.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 5
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

some-alt