CSV-Tiedostot

Koska pandas on suosituin kirjasto datan analysointiin ja käsittelyyn, yksi sen keskeisistä ominaisuuksista on kyky lukea ja kirjoittaa erilaisia tiedostotyyppejä, mukaan lukien CSV-tiedostot.

CSV (Comma-Separated Values) -tiedosto on pelkkää tekstiä sisältävä tiedosto, jota käytetään taulukkomuotoisen datan tallentamiseen. Jokainen rivi edustaa tietuetta ja sarakkeet erotetaan pilkuilla.

CSV-tiedosto voi sisältää seuraavanlaista dataa:

Numerot: kokonais- tai desimaaliluvut (esim. 42, 3.14);
Teksti: merkkijonot tai kategorinen data (esim. John, Active);
Päivämäärät/Ajat: aikaleimat (esim. 2023-12-30);
Totuusarvot: loogiset arvot (True, False).

Jokaisella rivillä tulee olla sama määrä sarakkeita, ja ensimmäinen rivi sisältää usein sarakkeiden otsikot.

Funktiot kuten read_csv() ja to_csv() ovat hyödyllisiä CSV-datan käsittelyssä.

read_csv()-funktion perussyntaksi ja keskeiset parametrit ovat seuraavat:

Tässä päivitetty versio, jossa index_col-parametri on lisätty ja selitetty selkeästi:

pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)

filepath_or_buffer: CSV-tiedoston polku (merkkijono tai URL);
sep: erotin (oletuksena pilkku ,);
header: rivinumero, jota käytetään sarakeotsikoina (oletuksena ensimmäinen rivi);
names: käytettävien sarakkeiden nimet listana;
usecols: luettavien sarakkeiden osajoukko;
index_col: sarake (tai sarakkeiden lista), joka asetetaan DataFrame-indeksiksi.


              12345
            
# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Huomio

Varmista, että datan linkki on lainausmerkkien sisällä.

Perussyntaksi to_csv()-funktiolle ja keskeiset parametrit ovat seuraavat:

pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)

path_or_buf: tiedostopolku tai objekti, johon CSV kirjoitetaan;
sep: arvojen erotinmerkki (oletuksena pilkku ,);
columns: sarakkeiden osajoukko, jotka kirjoitetaan (oletuksena kaikki sarakkeet);
header: sisällytetäänkö sarakeotsikot tiedoston alkuun (oletuksena True);
index: kirjoitetaanko rivin indeksit tiedostoon (oletuksena True).


              1234567
            
import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 1

single

Pyyhkäise näyttääksesi valikon

Koska pandas on suosituin kirjasto datan analysointiin ja käsittelyyn, yksi sen keskeisistä ominaisuuksista on kyky lukea ja kirjoittaa erilaisia tiedostotyyppejä, mukaan lukien CSV-tiedostot.

CSV-tiedosto voi sisältää seuraavanlaista dataa:

Numerot: kokonais- tai desimaaliluvut (esim. 42, 3.14);
Teksti: merkkijonot tai kategorinen data (esim. John, Active);
Päivämäärät/Ajat: aikaleimat (esim. 2023-12-30);
Totuusarvot: loogiset arvot (True, False).

Jokaisella rivillä tulee olla sama määrä sarakkeita, ja ensimmäinen rivi sisältää usein sarakkeiden otsikot.

Funktiot kuten read_csv() ja to_csv() ovat hyödyllisiä CSV-datan käsittelyssä.

read_csv()-funktion perussyntaksi ja keskeiset parametrit ovat seuraavat:

Tässä päivitetty versio, jossa index_col-parametri on lisätty ja selitetty selkeästi:

pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)

filepath_or_buffer: CSV-tiedoston polku (merkkijono tai URL);
sep: erotin (oletuksena pilkku ,);
header: rivinumero, jota käytetään sarakeotsikoina (oletuksena ensimmäinen rivi);
names: käytettävien sarakkeiden nimet listana;
usecols: luettavien sarakkeiden osajoukko;
index_col: sarake (tai sarakkeiden lista), joka asetetaan DataFrame-indeksiksi.


              12345
            
# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Huomio

Varmista, että datan linkki on lainausmerkkien sisällä.

Perussyntaksi to_csv()-funktiolle ja keskeiset parametrit ovat seuraavat:

pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)

path_or_buf: tiedostopolku tai objekti, johon CSV kirjoitetaan;
sep: arvojen erotinmerkki (oletuksena pilkku ,);
columns: sarakkeiden osajoukko, jotka kirjoitetaan (oletuksena kaikki sarakkeet);
header: sisällytetäänkö sarakeotsikot tiedoston alkuun (oletuksena True);
index: kirjoitetaanko rivin indeksit tiedostoon (oletuksena True).


              1234567
            
import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

Tehtävä

Pyyhkäise aloittaaksesi koodauksen

Sinulle on annettu CSV-tiedoston URL-osoite merkkijonona muuttujassa file_url.

Lue CSV-tiedosto annetusta URL-osoitteesta DataFrame-muuttujaan nimeltä wine_data.

Ratkaisu

Vaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 2. Luku 1

single

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme