Lernen Aufteilen von Daten in Blöcke | Arbeiten mit Großen Datensätzen

Swipe um das Menü anzuzeigen

Der Umgang mit großen Datensätzen, die nicht vollständig in den Arbeitsspeicher passen, erfordert einen anderen Ansatz als das einfache Laden der gesamten Datei. Wenn Sie versuchen, eine riesige CSV-Datei mit der normalen read_csv-Funktion in pandas zu laden, können Speicherfehler oder erhebliche Verlangsamungen auftreten. Um dies zu vermeiden, können Sie die Daten in kleinere, besser handhabbare Teile aufteilen und jeden Abschnitt unabhängig voneinander verarbeiten. Diese Technik ist besonders nützlich in folgenden Szenarien:

Analyse großer Logdateien;
Verarbeitung von Datenexporten aus Datenbanken;
Arbeit mit Zeitreihendaten, die über lange Zeiträume gesammelt wurden.

Das Aufteilen von Daten in Teilmengen ermöglicht es, jeweils nur einen kleinen Teil des Datensatzes zu verarbeiten. Dadurch bleibt der Speicherverbrauch gering und effizientes Arbeiten ist auch mit einfacher Hardware möglich. Wenn Sie beispielsweise Statistiken berechnen oder Zeilen aus einer Datei mit Millionen von Einträgen filtern müssen, können Sie durch das Lesen in Teilmengen jeden Abschnitt einzeln verarbeiten und bei Bedarf die Ergebnisse schrittweise zusammenführen. Dieser Ansatz ist auch hilfreich, wenn Sie Daten in eine Machine-Learning-Pipeline streamen oder eine schrittweise Datenbereinigung durchführen möchten.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

War alles klar?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 2