Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Piirteiden Suunnittelu Kohorttianalyysia Varten | Kohorttidatan Jäsentely ja Valmistelu
Kohorttianalyysi Pythonilla

Piirteiden Suunnittelu Kohorttianalyysia Varten

Pyyhkäise näyttääksesi valikon

Ominaisuuksien luonti (feature engineering) tarkoittaa uusien muuttujien rakentamista raakadatan pohjalta analyysin, mallinnuksen tai segmentoinnin parantamiseksi. Kohorttianalyysissä tehokas ominaisuuksien luonti auttaa löytämään syvällisempiä näkemyksiä käyttäjien käyttäytymisestä ajan kuluessa. Tyypillisiä ominaisuuksia ovat käyttäjän elinkaari (kuinka kauan käyttäjä on ollut aktiivinen), aktiivisuuskerrat (kuinka monta kertaa käyttäjä on suorittanut tietyn toiminnon) ja viimeisin aktiivisuus (kuinka äskettäin käyttäjä on ollut aktiivinen). Näiden ominaisuuksien avulla käyttäjät voidaan ryhmitellä merkityksellisemmin, jolloin voidaan havaita säilyttämisen, sitoutumisen ja poistuman malleja. Rakentamalla tällaisia ominaisuuksia voidaan mennä perinteistä kohorttijakoa pidemmälle ja muodostaa monipuolisempia ja hyödyllisempiä kohortteja.

12345678910111213141516171819202122232425262728
import pandas as pd # Sample user activity data data = { "user_id": [1, 1, 1, 2, 2, 3, 3, 3, 3], "activity_date": [ "2024-01-01", "2024-01-10", "2024-02-01", "2024-01-05", "2024-02-20", "2024-01-03", "2024-01-10", "2024-01-20", "2024-03-01" ] } df = pd.DataFrame(data) df["activity_date"] = pd.to_datetime(df["activity_date"]) # Calculate user lifetime (days between first and last activity) user_lifetime = df.groupby("user_id")["activity_date"].agg(["min", "max"]) user_lifetime["user_lifetime_days"] = (user_lifetime["max"] - user_lifetime["min"]).dt.days # Calculate activity count per user activity_counts = df.groupby("user_id").size().rename("activity_count") # Calculate recency (days since last activity, assuming analysis date is 2024-03-15) analysis_date = pd.to_datetime("2024-03-15") recency = df.groupby("user_id")["activity_date"].max().apply(lambda x: (analysis_date - x).days).rename("recency_days") # Combine features into a single DataFrame features = pd.concat([user_lifetime["user_lifetime_days"], activity_counts, recency], axis=1) print(features)

Koodiesimerkissä luodut ominaisuudet – käyttäjän elinkaari, aktiivisuuskerrat ja viimeisin aktiivisuus – ovat tehokkaita työkaluja kohorttien segmentointiin ja analysointiin. Mittaamalla kuinka pitkään käyttäjä pysyy aktiivisena, kuinka usein hän osallistuu ja kuinka äskettäin hän on ollut vuorovaikutuksessa, voidaan tunnistaa merkittäviä eroja kohorttien välillä. Esimerkiksi käyttäjät, joilla on pitkä elinkaari ja paljon aktiivisuutta, voivat kuulua erittäin sitoutuneisiin kohortteihin, kun taas korkean viimeisimmän aktiivisuuden omaavat käyttäjät voivat olla poistumisriskissä. Näiden ominaisuuksien avulla voidaan siirtyä yksinkertaisesta aikaperusteisesta ryhmittelystä moniulotteiseen segmentointiin, joka paljastaa syvempiä käyttäytymismalleja ja tukee kohdennetumpia liiketoimintastrategioita.

question mark

Mikä seuraavista kuvaa parhaiten ominaisuuksien luomisen tarkoitusta cohort-analyysissä?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 2
some-alt