Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Lajittelu | Datan Käsittely ja Puhdistus
Datan analysointi R:llä

bookDatan Lajittelu

Lajittelu on olennainen toimenpide data-analyysissä. Sen avulla voit järjestää aineiston yhden tai useamman muuttujan, kuten hinnan, ajokilometrien tai vuoden, perusteella. Tämä helpottaa trendien ja poikkeamien tunnistamista sekä mahdollistaa datan tarkastelun mielekkäässä järjestyksessä.

Lajittelu nousevaan järjestykseen

Base R

Voit käyttää order()-funktiota lajitellaksesi aineiston sarakkeen arvojen mukaan. Oletuksena funktio palauttaa datan nousevassa järjestyksessä.

df_sorted_price_base <- df[order(df$selling_price), ]

dplyr

Lajittelu voidaan tehdä käyttämällä arrange()-funktiota, joka oletuksena järjestää nousevaan järjestykseen.

df_sorted_price_dplyr <- df %>%
  arrange(selling_price)

Lajittelu laskevaan järjestykseen

Base R

Laskevaan järjestykseen lajittelemiseksi laita miinusmerkki (-) sarakkeen eteen order()-funktion sisällä.

df_sorted_price_desc <- df[order(-df$selling_price), ]

dplyr

Voit käyttää desc()-funktiota arrange()-funktion sisällä kääntääksesi järjestyksen.

sorted_price_desc_dplyr <- df %>%
  arrange(desc(selling_price))

Lajittelu usean sarakkeen perusteella

On mahdollista lajitella useamman kuin yhden sarakkeen perusteella priorisoidun järjestyksen luomiseksi. Esimerkiksi voit ensin lajitella polttoainetyypin mukaan (aakkosjärjestyksessä) ja sen jälkeen myyntihinnan mukaan laskevassa järjestyksessä.

Base R

df_sorted <- df[order(df$fuel, -df$selling_price), ]

dplyr

df_sorted_dplyr <- df %>%
  arrange(fuel, desc(selling_price))
question mark

Mitä order(df$selling_price) tekee?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 8

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the difference between sorting with base R and dplyr?

How do I sort by more than two columns?

What should I do if my column contains missing values when sorting?

Awesome!

Completion rate improved to 4

bookDatan Lajittelu

Pyyhkäise näyttääksesi valikon

Lajittelu on olennainen toimenpide data-analyysissä. Sen avulla voit järjestää aineiston yhden tai useamman muuttujan, kuten hinnan, ajokilometrien tai vuoden, perusteella. Tämä helpottaa trendien ja poikkeamien tunnistamista sekä mahdollistaa datan tarkastelun mielekkäässä järjestyksessä.

Lajittelu nousevaan järjestykseen

Base R

Voit käyttää order()-funktiota lajitellaksesi aineiston sarakkeen arvojen mukaan. Oletuksena funktio palauttaa datan nousevassa järjestyksessä.

df_sorted_price_base <- df[order(df$selling_price), ]

dplyr

Lajittelu voidaan tehdä käyttämällä arrange()-funktiota, joka oletuksena järjestää nousevaan järjestykseen.

df_sorted_price_dplyr <- df %>%
  arrange(selling_price)

Lajittelu laskevaan järjestykseen

Base R

Laskevaan järjestykseen lajittelemiseksi laita miinusmerkki (-) sarakkeen eteen order()-funktion sisällä.

df_sorted_price_desc <- df[order(-df$selling_price), ]

dplyr

Voit käyttää desc()-funktiota arrange()-funktion sisällä kääntääksesi järjestyksen.

sorted_price_desc_dplyr <- df %>%
  arrange(desc(selling_price))

Lajittelu usean sarakkeen perusteella

On mahdollista lajitella useamman kuin yhden sarakkeen perusteella priorisoidun järjestyksen luomiseksi. Esimerkiksi voit ensin lajitella polttoainetyypin mukaan (aakkosjärjestyksessä) ja sen jälkeen myyntihinnan mukaan laskevassa järjestyksessä.

Base R

df_sorted <- df[order(df$fuel, -df$selling_price), ]

dplyr

df_sorted_dplyr <- df %>%
  arrange(fuel, desc(selling_price))
question mark

Mitä order(df$selling_price) tekee?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 8
some-alt