Aufteilen von Daten in Blöcke
Swipe um das Menü anzuzeigen
Der Umgang mit großen Datensätzen, die nicht vollständig in den Arbeitsspeicher passen, erfordert einen anderen Ansatz als das einfache Laden der gesamten Datei. Wenn Sie versuchen, eine riesige CSV-Datei mit der normalen read_csv-Funktion in pandas zu laden, können Speicherfehler oder erhebliche Verlangsamungen auftreten. Um dies zu vermeiden, können Sie die Daten in kleinere, besser handhabbare Teile aufteilen und jeden Abschnitt unabhängig voneinander verarbeiten. Diese Technik ist besonders nützlich in folgenden Szenarien:
- Analyse großer Logdateien;
- Verarbeitung von Datenexporten aus Datenbanken;
- Arbeit mit Zeitreihendaten, die über lange Zeiträume gesammelt wurden.
Das Aufteilen von Daten in Teilmengen ermöglicht es, jeweils nur einen kleinen Teil des Datensatzes zu verarbeiten. Dadurch bleibt der Speicherverbrauch gering und effizientes Arbeiten ist auch mit einfacher Hardware möglich. Wenn Sie beispielsweise Statistiken berechnen oder Zeilen aus einer Datei mit Millionen von Einträgen filtern müssen, können Sie durch das Lesen in Teilmengen jeden Abschnitt einzeln verarbeiten und bei Bedarf die Ergebnisse schrittweise zusammenführen. Dieser Ansatz ist auch hilfreich, wenn Sie Daten in eine Machine-Learning-Pipeline streamen oder eine schrittweise Datenbereinigung durchführen möchten.
1234567891011import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen