Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Histogrammien Luominen | Datan Visualisointi
Datan analysointi R:llä

bookHistogrammien Luominen

Miksi käyttää histogrammeja?

Histogrammit visualisoivat jatkuvan (numeerisen) datan jakaumaa. Ne näyttävät, miten data jakautuu alueisiin (binseihin) ja auttavat:

  • Havaitsemaan vinouman, poikkeavat arvot tai aukot;
  • Ymmärtämään frekvenssijakauman;
  • Arvioimaan nopeasti, onko data normaalijakautunutta vai ei.

Histogrammit soveltuvat parhaiten muuttujille kuten hinta, ajokilometrit tai ikä.

Histogrammin syntaksi ggplot2:ssa

Histogrammin voi luoda käyttämällä geom_histogram(), jossa x-muuttujan tulee olla numeerinen.

ggplot(data = df, aes(x = variable)) +
  geom_histogram()

Histogrammin ulkoasua voi muokata argumenteilla kuten bins (binien määrä), fill (palkkien väri), color (reunojen väri) ja theme tyylin määrittelyyn.

Esimerkki: Myyntihintojen jakauma

Histogrammia voidaan käyttää tarkastelemaan, miten autojen hinnat jakautuvat aineistossa. Tässä esimerkissä palkit täytetään teräksen sinisellä ja reunustetaan mustalla, ja selkeyden vuoksi lisätään otsikot sekä minimaalinen teema.

ggplot(data = df, aes(x = selling_price)) +
  geom_histogram(fill = "steelblue", color = "black") +
  labs(title = "Distribution of Selling Prices",
       x = "Selling Price (in PKR)",
       y = "Count") +
  theme_minimal()

Tämä kuvaaja paljastaa myyntihintojen jakauman kokonaismuodon, jolloin on helppo nähdä, sijoittuvatko suurin osa autoista tietylle hintavälille vai esiintyykö poikkeavia arvoja ylä- tai alapäässä.

question mark

Mitä geom_histogram()-funktion bins-parametri määrittää?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 3

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4

bookHistogrammien Luominen

Pyyhkäise näyttääksesi valikon

Miksi käyttää histogrammeja?

Histogrammit visualisoivat jatkuvan (numeerisen) datan jakaumaa. Ne näyttävät, miten data jakautuu alueisiin (binseihin) ja auttavat:

  • Havaitsemaan vinouman, poikkeavat arvot tai aukot;
  • Ymmärtämään frekvenssijakauman;
  • Arvioimaan nopeasti, onko data normaalijakautunutta vai ei.

Histogrammit soveltuvat parhaiten muuttujille kuten hinta, ajokilometrit tai ikä.

Histogrammin syntaksi ggplot2:ssa

Histogrammin voi luoda käyttämällä geom_histogram(), jossa x-muuttujan tulee olla numeerinen.

ggplot(data = df, aes(x = variable)) +
  geom_histogram()

Histogrammin ulkoasua voi muokata argumenteilla kuten bins (binien määrä), fill (palkkien väri), color (reunojen väri) ja theme tyylin määrittelyyn.

Esimerkki: Myyntihintojen jakauma

Histogrammia voidaan käyttää tarkastelemaan, miten autojen hinnat jakautuvat aineistossa. Tässä esimerkissä palkit täytetään teräksen sinisellä ja reunustetaan mustalla, ja selkeyden vuoksi lisätään otsikot sekä minimaalinen teema.

ggplot(data = df, aes(x = selling_price)) +
  geom_histogram(fill = "steelblue", color = "black") +
  labs(title = "Distribution of Selling Prices",
       x = "Selling Price (in PKR)",
       y = "Count") +
  theme_minimal()

Tämä kuvaaja paljastaa myyntihintojen jakauman kokonaismuodon, jolloin on helppo nähdä, sijoittuvatko suurin osa autoista tietylle hintavälille vai esiintyykö poikkeavia arvoja ylä- tai alapäässä.

question mark

Mitä geom_histogram()-funktion bins-parametri määrittää?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 3
some-alt