Datan Jakaminen Osiin
Pyyhkäise näyttääksesi valikon
Suurten tietoaineistojen käsittely, jotka eivät mahdu muistiin kerralla, vaatii erilaisen lähestymistavan kuin koko tiedoston lataaminen kerralla. Kun yrität ladata valtavan CSV-tiedoston pandas-kirjastoon tavallisella read_csv-funktiolla, saatat kohdata muistivirheitä tai merkittäviä hidastumisia. Tämän välttämiseksi voit jakaa datan pienempiin, helpommin hallittaviin osiin ja käsitellä kutakin erikseen. Tämä tekniikka on erityisen hyödyllinen esimerkiksi seuraavissa tilanteissa:
- Suurten lokitiedostojen analysointi;
- Tietokannoista tuotujen tietojen käsittely;
- Pitkän ajan kuluessa kerätyn aikasarjadatan käsittely.
Datan jakaminen osiin mahdollistaa vain pienen osan aineistosta käsittelyn kerrallaan, mikä pitää muistin käytön pienenä ja mahdollistaa tehokkaan työskentelyn myös vaatimattomalla laitteistolla. Esimerkiksi, jos sinun täytyy laskea tilastoja tai suodattaa rivejä tiedostosta, jossa on miljoonia tietueita, osissa lukeminen mahdollistaa jokaisen osan käsittelyn ja tarvittaessa tulosten yhdistämisen sitä mukaa kuin etenet. Tämä lähestymistapa on hyödyllinen myös silloin, kun haluat syöttää dataa koneoppimisputkeen tai suorittaa vaiheittaista datan puhdistusta.
1234567891011import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme