CSV-Bestanden
Aangezien pandas
de standaardbibliotheek is voor data-analyse en manipulatie, is een van de belangrijkste kenmerken het vermogen om verschillende bestandstypen te lezen en te schrijven, inclusief CSV-bestanden.
Een CSV (Comma-Separated Values) bestand is een platte tekstbestand dat wordt gebruikt om tabelgegevens op te slaan, waarbij elke rij een record vertegenwoordigt en kolommen worden gescheiden door komma's.
Een CSV-bestand kan de volgende gegevens bevatten:
Nummers: gehele of decimale waarden (bijv.
42
,3.14
);Tekst: strings of categorische gegevens (bijv.
John
,Active
);Datums/Tijden: tijdstempels (bijv.
2023-12-30
);Booleans: logische waarden (
True
,False
).
Elke rij moet hetzelfde aantal kolommen hebben, en de eerste rij bevat vaak kolomkoppen.
Functies zoals read_csv()
en to_csv()
zijn handig bij het omgaan met CSV-gegevens.
De basis syntax van read_csv()
en belangrijke parameters zijn als volgt:
python
filepath_or_buffer
: pad naar het CSV-bestand (string of URL);sep
: scheidingsteken (standaard is een komma,
);header
: rijnummer om te gebruiken als kolomkoppen (standaard is de eerste rij);names
: Lijst van kolomnamen om te gebruiken;usecols
: kolommen om te lezen (subset van kolommen).
# Loading the CSV into a `DataFrame` import pandas as pd salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv') print(salary_data)
Opmerking
Zorg ervoor dat de datasetlink tussen aanhalingstekens staat.
De basis syntaxis van to_csv()
en de belangrijkste parameters zijn als volgt:
python
path_or_buf
: bestandspad of object waar de CSV moet worden geschreven;sep
: scheidingsteken voor het scheiden van waarden (standaard is een komma,
);columns
: subset van kolommen om te schrijven (standaard zijn alle kolommen);header
: of kolomnamen als kop moeten worden opgenomen (standaard isTrue
);index
: of rij-indexen naar het bestand moeten worden geschreven (standaard isTrue
).
import pandas as pd countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']} countries = pd.DataFrame(countries_data) countries.to_csv('countries.csv') print('Done')
Swipe to start coding
Je krijgt een URL naar een CSV-bestand dat als een string is opgeslagen in de variabele file_url
.
- Lees het CSV-bestand van de gegeven URL in een
DataFrame
genaamdwine_data
.
Oplossing
Bedankt voor je feedback!