CSV-Tiedostot
Koska pandas
on suosittu kirjasto datan analysointiin ja käsittelyyn, yksi sen keskeisistä ominaisuuksista on kyky lukea ja kirjoittaa erilaisia tiedostotyyppejä, mukaan lukien CSV-tiedostot.
CSV (Comma-Separated Values) -tiedosto on tavallinen tekstitiedosto, jota käytetään taulukkomuotoisen datan tallentamiseen, missä kukin rivi edustaa tietuetta ja sarakkeet erotetaan pilkuilla.
CSV-tiedosto voi sisältää seuraavanlaista dataa:
Numerot: kokonais- tai desimaaliluvut (esim.
42
,3.14
);Teksti: merkkijonot tai kategorinen data (esim.
John
,Active
);Päivät/Ajat: aikaleimat (esim.
2023-12-30
);Totuusarvot: loogiset arvot (
True
,False
).
Jokaisella rivillä on oltava sama määrä sarakkeita, ja ensimmäinen rivi sisältää usein sarakkeiden otsikot.
Funktiot kuten read_csv()
ja to_csv()
ovat käteviä CSV-datan käsittelyssä.
read_csv()
-funktion perussyntaksi ja keskeiset parametrit ovat seuraavat:
python
filepath_or_buffer
: polku CSV-tiedostoon (merkkijono tai URL);sep
: erotin (oletuksena pilkku,
);header
: rivinumero, jota käytetään sarakkeiden otsikoina (oletuksena ensimmäinen rivi);names
: käytettävien sarakenimien lista;usecols
: luettavat sarakkeet (sarakkeiden osajoukko).
# Loading the CSV into a `DataFrame` import pandas as pd salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv') print(salary_data)
Huomautus
Varmista, että datasetin linkki on lainausmerkeissä.
Perussyntaksi to_csv()
ja keskeiset parametrit ovat seuraavat:
python
path_or_buf
: tiedostopolku tai objekti, johon CSV pitäisi kirjoittaa;sep
: erotin arvojen erottamiseen (oletus on pilkku,
);columns
: kirjoitettavien sarakkeiden osajoukko (oletus on kaikki sarakkeet);header
: sisällytetäänkö sarakenimet otsikkona (oletus onTrue
);index
: kirjoitetaanko rivien indeksit tiedostoon (oletus onTrue
).
import pandas as pd countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']} countries = pd.DataFrame(countries_data) countries.to_csv('countries.csv') print('Done')
Swipe to start coding
Sinulle annetaan URL-osoite CSV-tiedostoon, joka on tallennettu merkkijonona file_url
-muuttujaan.
- Lue CSV-tiedosto annetusta URL-osoitteesta
DataFrame
-nimiseenwine_data
.
Ratkaisu
Kiitos palautteestasi!