Feature Engineering til Kohorteanalyse
Stryg for at vise menuen
Feature engineering er processen med at skabe nye variable ud fra rå data for at forbedre analyse, modellering eller segmentering. I kohorteanalyse hjælper effektiv feature engineering dig med at udtrække dybere indsigter om brugeradfærd over tid. Typiske features omfatter brugerens levetid (hvor længe en bruger har været aktiv), aktivitetsantal (hvor mange gange en bruger har udført en bestemt handling) og recency (hvor nyligt en bruger har været aktiv). Disse features gør det muligt at gruppere brugere mere meningsfuldt og afsløre mønstre i fastholdelse, engagement og frafald. Ved at konstruere sådanne features kan du gå ud over grundlæggende kohorteopdeling og opbygge mere nuancerede og handlingsorienterede kohorter.
12345678910111213141516171819202122232425262728import pandas as pd # Sample user activity data data = { "user_id": [1, 1, 1, 2, 2, 3, 3, 3, 3], "activity_date": [ "2024-01-01", "2024-01-10", "2024-02-01", "2024-01-05", "2024-02-20", "2024-01-03", "2024-01-10", "2024-01-20", "2024-03-01" ] } df = pd.DataFrame(data) df["activity_date"] = pd.to_datetime(df["activity_date"]) # Calculate user lifetime (days between first and last activity) user_lifetime = df.groupby("user_id")["activity_date"].agg(["min", "max"]) user_lifetime["user_lifetime_days"] = (user_lifetime["max"] - user_lifetime["min"]).dt.days # Calculate activity count per user activity_counts = df.groupby("user_id").size().rename("activity_count") # Calculate recency (days since last activity, assuming analysis date is 2024-03-15) analysis_date = pd.to_datetime("2024-03-15") recency = df.groupby("user_id")["activity_date"].max().apply(lambda x: (analysis_date - x).days).rename("recency_days") # Combine features into a single DataFrame features = pd.concat([user_lifetime["user_lifetime_days"], activity_counts, recency], axis=1) print(features)
De features, der er oprettet i kodeeksemplet – brugerens levetid, aktivitetsantal og recency – er effektive værktøjer til kohortesegmentering og analyse. Ved at måle, hvor længe en bruger forbliver aktiv, hvor ofte de engagerer sig, og hvor nyligt de har interageret, kan du identificere væsentlige forskelle mellem kohorter. For eksempel kan brugere med lang levetid og hyppig aktivitet tilhøre meget engagerede kohorter, mens dem med høje recency-værdier kan være i risiko for frafald. Disse konstruerede features gør det muligt at gå ud over simpel tidsbaseret gruppering og muliggør multidimensionel segmentering, der afdækker dybere adfærdsmønstre og understøtter mere målrettede forretningsstrategier.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat