CSV-Bestanden

Omdat pandas de standaardbibliotheek is voor data-analyse en -manipulatie, is een van de belangrijkste functies het kunnen lezen en schrijven van verschillende bestandstypen, waaronder CSV-bestanden.

Een CSV (Comma-Separated Values)-bestand is een tekstbestand dat tabelgegevens opslaat, waarbij elke rij een record voorstelt en kolommen gescheiden zijn door komma's.

Een CSV-bestand kan de volgende gegevens bevatten:

Getallen: gehele of decimale waarden (bijv. 42, 3.14);
Tekst: strings of categorische gegevens (bijv. John, Active);
Datums/Tijden: tijdsaanduidingen (bijv. 2023-12-30);
Booleans: logische waarden (True, False).

Elke rij moet hetzelfde aantal kolommen hebben en de eerste rij bevat vaak kolomkoppen.

Functies zoals read_csv() en to_csv() zijn handig bij het werken met CSV-gegevens.

De basis-syntaxis van read_csv() en de belangrijkste parameters zijn als volgt:

Hier is de bijgewerkte versie met de index_col-parameter toegevoegd en duidelijk uitgelegd:

pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)

filepath_or_buffer: pad naar het CSV-bestand (string of URL);
sep: scheidingsteken (standaard een komma ,);
header: rijnummer dat als kolomkoppen wordt gebruikt (standaard de eerste rij);
names: lijst met kolomnamen om te gebruiken;
usecols: subset van kolommen om te lezen;
index_col: kolom (of lijst van kolommen) die als index van de DataFrame wordt ingesteld.


              12345
            
# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Opmerking

Zorg ervoor dat de datasetlink tussen aanhalingstekens staat.

De basis-syntaxis van to_csv() en de belangrijkste parameters zijn als volgt:

pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)

path_or_buf: bestandspad of object waar het CSV-bestand naartoe geschreven moet worden;
sep: scheidingsteken voor het scheiden van waarden (standaard is een komma ,);
columns: subset van kolommen om te schrijven (standaard zijn alle kolommen);
header: of kolomnamen als kop moeten worden opgenomen (standaard is True);
index: of rij-indexen naar het bestand moeten worden geschreven (standaard is True).


              1234567
            
import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

single

Veeg om het menu te tonen

Een CSV (Comma-Separated Values)-bestand is een tekstbestand dat tabelgegevens opslaat, waarbij elke rij een record voorstelt en kolommen gescheiden zijn door komma's.

Een CSV-bestand kan de volgende gegevens bevatten:

Getallen: gehele of decimale waarden (bijv. 42, 3.14);
Tekst: strings of categorische gegevens (bijv. John, Active);
Datums/Tijden: tijdsaanduidingen (bijv. 2023-12-30);
Booleans: logische waarden (True, False).

Elke rij moet hetzelfde aantal kolommen hebben en de eerste rij bevat vaak kolomkoppen.

Functies zoals read_csv() en to_csv() zijn handig bij het werken met CSV-gegevens.

De basis-syntaxis van read_csv() en de belangrijkste parameters zijn als volgt:

Hier is de bijgewerkte versie met de index_col-parameter toegevoegd en duidelijk uitgelegd:

pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)

filepath_or_buffer: pad naar het CSV-bestand (string of URL);
sep: scheidingsteken (standaard een komma ,);
header: rijnummer dat als kolomkoppen wordt gebruikt (standaard de eerste rij);
names: lijst met kolomnamen om te gebruiken;
usecols: subset van kolommen om te lezen;
index_col: kolom (of lijst van kolommen) die als index van de DataFrame wordt ingesteld.


              12345
            
# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Opmerking

Zorg ervoor dat de datasetlink tussen aanhalingstekens staat.

De basis-syntaxis van to_csv() en de belangrijkste parameters zijn als volgt:

pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)

path_or_buf: bestandspad of object waar het CSV-bestand naartoe geschreven moet worden;
sep: scheidingsteken voor het scheiden van waarden (standaard is een komma ,);
columns: subset van kolommen om te schrijven (standaard zijn alle kolommen);
header: of kolomnamen als kop moeten worden opgenomen (standaard is True);
index: of rij-indexen naar het bestand moeten worden geschreven (standaard is True).


              1234567
            
import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

Taak

Veeg om te beginnen met coderen

Je krijgt een URL naar een CSV-bestand dat als string is opgeslagen in de variabele file_url.

Lees het CSV-bestand van de opgegeven URL in een DataFrame met de naam wine_data.

Oplossing

Schakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

single

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.