Het Beschrijven van de Gegevens
pandas
biedt de handige mean()
methode die het gemiddelde van alle waarden voor elke kolom berekent.
df = pd.read_csv(file.csv)
mean_values = df.mean()
Je kunt dezelfde methode ook gebruiken om de gemiddelde waarde voor een specifieke kolom te bepalen:
df = pd.read_csv(file.csv)
mean_values = df['column_name'].mean()
pandas
biedt ook de mode()
methode, die de meest voorkomende waarde in elke kolom identificeert.
df = pd.read_csv(file.csv)
mode_values = df.mode()
Om de modus voor een specifieke kolom te vinden, wordt dezelfde methode gebruikt:
df = pd.read_csv(file.csv)
mode_values = df['column_name'].mode()[0]
Een andere nuttige methode in pandas
is describe()
.
df = pd.read_csv(file.csv)
important_metrics = df.describe()
Deze methode biedt een overzicht van verschillende statistieken uit de dataset, inclusief:
- Totaal aantal items;
- Gemiddelde of gemiddelde waarde;
- Standaarddeviatie;
- De minimum- en maximumwaarden;
- De 25e, 50e (mediaan) en 75e percentielen.
Taak
Swipe to start coding
Je hebt een DataFrame
genaamd wine_data
.
- Bereken het gemiddelde van de kolom
'residual sugar'
en sla het resultaat op in de variabeleresidual_sugar_mean
. - Bereken de modus van de kolom
'fixed acidity'
en sla het resultaat op in de variabelefixed_acidity_mode
. - Haal een overzicht van verschillende statistieken uit
wine_data
en sla het resultaat op in de variabeledescribed_data
.
Oplossing
Was alles duidelijk?
Bedankt voor je feedback!