Feature Engineering voor Cohortanalyse
Veeg om het menu te tonen
Feature engineering is het proces waarbij nieuwe variabelen worden gecreëerd uit ruwe data om analyse, modellering of segmentatie te verbeteren. In cohortanalyse helpt effectieve feature engineering om diepgaandere inzichten te verkrijgen in het gebruikersgedrag over tijd. Typische kenmerken zijn gebruikerslevensduur (hoe lang een gebruiker actief is geweest), activiteitentellingen (hoe vaak een gebruiker een specifieke actie heeft uitgevoerd) en recency (hoe recent een gebruiker actief was). Deze kenmerken maken het mogelijk om gebruikers op een betekenisvollere manier te groeperen, waardoor patronen in retentie, betrokkenheid en uitval zichtbaar worden. Door dergelijke kenmerken te ontwikkelen, kun je verder gaan dan eenvoudige cohorttoewijzing en rijkere, meer bruikbare cohorten samenstellen.
12345678910111213141516171819202122232425262728import pandas as pd # Sample user activity data data = { "user_id": [1, 1, 1, 2, 2, 3, 3, 3, 3], "activity_date": [ "2024-01-01", "2024-01-10", "2024-02-01", "2024-01-05", "2024-02-20", "2024-01-03", "2024-01-10", "2024-01-20", "2024-03-01" ] } df = pd.DataFrame(data) df["activity_date"] = pd.to_datetime(df["activity_date"]) # Calculate user lifetime (days between first and last activity) user_lifetime = df.groupby("user_id")["activity_date"].agg(["min", "max"]) user_lifetime["user_lifetime_days"] = (user_lifetime["max"] - user_lifetime["min"]).dt.days # Calculate activity count per user activity_counts = df.groupby("user_id").size().rename("activity_count") # Calculate recency (days since last activity, assuming analysis date is 2024-03-15) analysis_date = pd.to_datetime("2024-03-15") recency = df.groupby("user_id")["activity_date"].max().apply(lambda x: (analysis_date - x).days).rename("recency_days") # Combine features into a single DataFrame features = pd.concat([user_lifetime["user_lifetime_days"], activity_counts, recency], axis=1) print(features)
De kenmerken die in het codevoorbeeld zijn gecreëerd – gebruikerslevensduur, activiteitentellingen en recency – zijn krachtige hulpmiddelen voor cohortsegmentatie en analyse. Door te meten hoe lang een gebruiker actief blijft, hoe vaak hij of zij betrokken is en hoe recent de laatste interactie was, kun je betekenisvolle verschillen tussen cohorten identificeren. Gebruikers met een lange levensduur en frequente activiteit behoren bijvoorbeeld mogelijk tot zeer betrokken cohorten, terwijl gebruikers met hoge recency-waarden risico lopen op uitval. Deze samengestelde kenmerken maken het mogelijk om verder te gaan dan eenvoudige tijdsgebaseerde groepering, waardoor multidimensionale segmentatie ontstaat die diepere gedragspatronen blootlegt en meer gerichte bedrijfsstrategieën ondersteunt.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.