Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Aufteilen von Daten in Blöcke | Arbeiten mit Großen Datensätzen
Umgang Mit Großen Datenmengen Mit Python

Aufteilen von Daten in Blöcke

Swipe um das Menü anzuzeigen

Der Umgang mit großen Datensätzen, die nicht vollständig in den Arbeitsspeicher passen, erfordert einen anderen Ansatz als das einfache Laden der gesamten Datei. Wenn Sie versuchen, eine riesige CSV-Datei mit der normalen read_csv-Funktion in pandas zu laden, können Speicherfehler oder erhebliche Verlangsamungen auftreten. Um dies zu vermeiden, können Sie die Daten in kleinere, besser handhabbare Teile aufteilen und jeden Abschnitt unabhängig voneinander verarbeiten. Diese Technik ist besonders nützlich in folgenden Szenarien:

  • Analyse großer Logdateien;
  • Verarbeitung von Datenexporten aus Datenbanken;
  • Arbeit mit Zeitreihendaten, die über lange Zeiträume gesammelt wurden.

Das Aufteilen von Daten in Teilmengen ermöglicht es, jeweils nur einen kleinen Teil des Datensatzes zu verarbeiten. Dadurch bleibt der Speicherverbrauch gering und effizientes Arbeiten ist auch mit einfacher Hardware möglich. Wenn Sie beispielsweise Statistiken berechnen oder Zeilen aus einer Datei mit Millionen von Einträgen filtern müssen, können Sie durch das Lesen in Teilmengen jeden Abschnitt einzeln verarbeiten und bei Bedarf die Ergebnisse schrittweise zusammenführen. Dieser Ansatz ist auch hilfreich, wenn Sie Daten in eine Machine-Learning-Pipeline streamen oder eine schrittweise Datenbereinigung durchführen möchten.

1234567891011
import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
question mark

Welcher Parameter in pandas.read_csv ermöglicht die Verarbeitung einer Datei in Teilmengen?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 2
some-alt