Oppiskele Datan Jakaminen Osiin | Suurten tietoaineistojen käsittely

Pyyhkäise näyttääksesi valikon

Suurten tietoaineistojen käsittely, jotka eivät mahdu muistiin kerralla, vaatii erilaisen lähestymistavan kuin koko tiedoston lataaminen kerralla. Kun yrität ladata valtavan CSV-tiedoston pandas-kirjastoon tavallisella read_csv-funktiolla, saatat kohdata muistivirheitä tai merkittäviä hidastumisia. Tämän välttämiseksi voit jakaa datan pienempiin, helpommin hallittaviin osiin ja käsitellä kutakin erikseen. Tämä tekniikka on erityisen hyödyllinen esimerkiksi seuraavissa tilanteissa:

Suurten lokitiedostojen analysointi;
Tietokannoista tuotujen tietojen käsittely;
Pitkän ajan kuluessa kerätyn aikasarjadatan käsittely.

Datan jakaminen osiin mahdollistaa vain pienen osan aineistosta käsittelyn kerrallaan, mikä pitää muistin käytön pienenä ja mahdollistaa tehokkaan työskentelyn myös vaatimattomalla laitteistolla. Esimerkiksi, jos sinun täytyy laskea tilastoja tai suodattaa rivejä tiedostosta, jossa on miljoonia tietueita, osissa lukeminen mahdollistaa jokaisen osan käsittelyn ja tarvittaessa tulosten yhdistämisen sitä mukaa kuin etenet. Tämä lähestymistapa on hyödyllinen myös silloin, kun haluat syöttää dataa koneoppimisputkeen tai suorittaa vaiheittaista datan puhdistusta.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 2

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 2