CSV-Filer

Da pandas er det foretrukne bibliotek til dataanalyse og datamanipulation, er en af dets vigtigste funktioner evnen til at læse og skrive forskellige filtyper, herunder CSV-filer.

En CSV (Comma-Separated Values)-fil er en tekstfil, der bruges til at gemme tabeldata, hvor hver række repræsenterer en post, og kolonner adskilles med kommaer.

En CSV-fil kan indeholde følgende data:

Tal: heltals- eller decimaltal (f.eks. 42, 3.14);
Tekst: strenge eller kategoriske data (f.eks. John, Active);
Datoer/tidspunkter: tidsstempler (f.eks. 2023-12-30);
Booleske værdier: logiske værdier (True, False).

Hver række skal have det samme antal kolonner, og den første række indeholder ofte kolonneoverskrifter.

Funktioner som read_csv() og to_csv() er nyttige til at arbejde med CSV-data.

Den grundlæggende syntaks for read_csv() og vigtige parametre er som følger:

Her er den opdaterede version med parameteren index_col tilføjet og tydeligt forklaret:

pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)

filepath_or_buffer: sti til CSV-filen (streng eller URL);
sep: skilletegn (standard er komma ,);
header: rækkenummer, der bruges som kolonneoverskrifter (standard er første række);
names: liste over kolonnenavne, der skal bruges;
usecols: delmængde af kolonner, der skal læses;
index_col: kolonne (eller liste af kolonner), der skal bruges som DataFrame-indeks.


              12345
            
# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Bemærk

Sørg for, at dataset-linket er omsluttet af anførselstegn.

Den grundlæggende syntaks for to_csv() og nøgleparametre er som følger:

pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)

path_or_buf: filsti eller objekt, hvor CSV-filen skal skrives;
sep: skilletegn til at adskille værdier (standard er komma ,);
columns: undergruppe af kolonner, der skal skrives (standard er alle kolonner);
header: om kolonnenavne skal inkluderes som header (standard er True);
index: om rækkeindekser skal skrives til filen (standard er True).


              1234567
            
import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

single

Stryg for at vise menuen

Da pandas er det foretrukne bibliotek til dataanalyse og datamanipulation, er en af dets vigtigste funktioner evnen til at læse og skrive forskellige filtyper, herunder CSV-filer.

En CSV (Comma-Separated Values)-fil er en tekstfil, der bruges til at gemme tabeldata, hvor hver række repræsenterer en post, og kolonner adskilles med kommaer.

En CSV-fil kan indeholde følgende data:

Tal: heltals- eller decimaltal (f.eks. 42, 3.14);
Tekst: strenge eller kategoriske data (f.eks. John, Active);
Datoer/tidspunkter: tidsstempler (f.eks. 2023-12-30);
Booleske værdier: logiske værdier (True, False).

Hver række skal have det samme antal kolonner, og den første række indeholder ofte kolonneoverskrifter.

Funktioner som read_csv() og to_csv() er nyttige til at arbejde med CSV-data.

Den grundlæggende syntaks for read_csv() og vigtige parametre er som følger:

Her er den opdaterede version med parameteren index_col tilføjet og tydeligt forklaret:

pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)

filepath_or_buffer: sti til CSV-filen (streng eller URL);
sep: skilletegn (standard er komma ,);
header: rækkenummer, der bruges som kolonneoverskrifter (standard er første række);
names: liste over kolonnenavne, der skal bruges;
usecols: delmængde af kolonner, der skal læses;
index_col: kolonne (eller liste af kolonner), der skal bruges som DataFrame-indeks.


              12345
            
# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Bemærk

Sørg for, at dataset-linket er omsluttet af anførselstegn.

Den grundlæggende syntaks for to_csv() og nøgleparametre er som følger:

pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)

path_or_buf: filsti eller objekt, hvor CSV-filen skal skrives;
sep: skilletegn til at adskille værdier (standard er komma ,);
columns: undergruppe af kolonner, der skal skrives (standard er alle kolonner);
header: om kolonnenavne skal inkluderes som header (standard er True);
index: om rækkeindekser skal skrives til filen (standard er True).


              1234567
            
import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

Opgave

Swipe to start coding

Du får en URL til en CSV-fil, som er gemt som en streng i variablen file_url.

Indlæs CSV-filen fra den angivne URL i en DataFrame med navnet wine_data.

Løsning

Skift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

single

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat