CSV-Filer
Da pandas
er det foretrukne bibliotek til dataanalyse og -manipulation, er en af dets nøglefunktioner dets evne til at læse og skrive forskellige filtyper, inklusive CSV-filer.
En CSV (Comma-Separated Values) fil er en almindelig tekstfil, der bruges til at gemme tabeldata, hvor hver række repræsenterer en post, og kolonner er adskilt af kommaer.
En CSV-fil kan indeholde følgende data:
Tal: heltal eller decimaltal (f.eks.
42
,3.14
);Tekst: strenge eller kategoriske data (f.eks.
John
,Active
);Datoer/Tider: tidsstempler (f.eks.
2023-12-30
);Booleans: logiske værdier (
True
,False
).
Hver række skal have det samme antal kolonner, og den første række indeholder ofte kolonneoverskrifter.
Funktioner som read_csv()
og to_csv()
er praktiske til at håndtere CSV-data.
Den grundlæggende syntaks for read_csv()
og nøgleparametre er som følger:
python
filepath_or_buffer
: sti til CSV-filen (streng eller URL);sep
: delimiter (standard er et komma,
);header
: række nummer til at bruge som kolonneoverskrifter (standard er den første række);names
: Liste over kolonnenavne, der skal bruges;usecols
: kolonner, der skal læses (undergruppe af kolonner).
# Loading the CSV into a `DataFrame` import pandas as pd salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv') print(salary_data)
Bemærk
Sørg for, at dataset-linket er indpakket i anførselstegn.
Den grundlæggende syntaks for to_csv()
og nøgleparametre er som følger:
python
path_or_buf
: filsti eller objekt, hvor CSV'en skal skrives;sep
: afgrænser til at adskille værdier (standard er et komma,
);columns
: delmængde af kolonner, der skal skrives (standard er alle kolonner);header
: om kolonnenavne skal inkluderes som header (standard erTrue
);index
: om rækkeindekser skal skrives til filen (standard erTrue
).
import pandas as pd countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']} countries = pd.DataFrame(countries_data) countries.to_csv('countries.csv') print('Done')
Swipe to start coding
Du får en URL til en CSV-fil gemt som en streng i variablen file_url
.
- Læs CSV-filen fra den givne URL ind i en
DataFrame
kaldetwine_data
.
Løsning
Tak for dine kommentarer!