Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Feature Engineering voor Cohortanalyse | Cohortgegevensstructurering en Voorbereiding
Cohortanalyse met Python

Feature Engineering voor Cohortanalyse

Veeg om het menu te tonen

Feature engineering is het proces waarbij nieuwe variabelen worden gecreëerd uit ruwe data om analyse, modellering of segmentatie te verbeteren. In cohortanalyse helpt effectieve feature engineering om diepgaandere inzichten te verkrijgen in het gebruikersgedrag over tijd. Typische kenmerken zijn gebruikerslevensduur (hoe lang een gebruiker actief is geweest), activiteitentellingen (hoe vaak een gebruiker een specifieke actie heeft uitgevoerd) en recency (hoe recent een gebruiker actief was). Deze kenmerken maken het mogelijk om gebruikers op een betekenisvollere manier te groeperen, waardoor patronen in retentie, betrokkenheid en uitval zichtbaar worden. Door dergelijke kenmerken te ontwikkelen, kun je verder gaan dan eenvoudige cohorttoewijzing en rijkere, meer bruikbare cohorten samenstellen.

12345678910111213141516171819202122232425262728
import pandas as pd # Sample user activity data data = { "user_id": [1, 1, 1, 2, 2, 3, 3, 3, 3], "activity_date": [ "2024-01-01", "2024-01-10", "2024-02-01", "2024-01-05", "2024-02-20", "2024-01-03", "2024-01-10", "2024-01-20", "2024-03-01" ] } df = pd.DataFrame(data) df["activity_date"] = pd.to_datetime(df["activity_date"]) # Calculate user lifetime (days between first and last activity) user_lifetime = df.groupby("user_id")["activity_date"].agg(["min", "max"]) user_lifetime["user_lifetime_days"] = (user_lifetime["max"] - user_lifetime["min"]).dt.days # Calculate activity count per user activity_counts = df.groupby("user_id").size().rename("activity_count") # Calculate recency (days since last activity, assuming analysis date is 2024-03-15) analysis_date = pd.to_datetime("2024-03-15") recency = df.groupby("user_id")["activity_date"].max().apply(lambda x: (analysis_date - x).days).rename("recency_days") # Combine features into a single DataFrame features = pd.concat([user_lifetime["user_lifetime_days"], activity_counts, recency], axis=1) print(features)

De kenmerken die in het codevoorbeeld zijn gecreëerd – gebruikerslevensduur, activiteitentellingen en recency – zijn krachtige hulpmiddelen voor cohortsegmentatie en analyse. Door te meten hoe lang een gebruiker actief blijft, hoe vaak hij of zij betrokken is en hoe recent de laatste interactie was, kun je betekenisvolle verschillen tussen cohorten identificeren. Gebruikers met een lange levensduur en frequente activiteit behoren bijvoorbeeld mogelijk tot zeer betrokken cohorten, terwijl gebruikers met hoge recency-waarden risico lopen op uitval. Deze samengestelde kenmerken maken het mogelijk om verder te gaan dan eenvoudige tijdsgebaseerde groepering, waardoor multidimensionale segmentatie ontstaat die diepere gedragspatronen blootlegt en meer gerichte bedrijfsstrategieën ondersteunt.

question mark

Welke van de volgende omschrijvingen geeft het doel van feature engineering bij cohortanalyse het beste weer?

Selecteer het correcte antwoord

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 2

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 1. Hoofdstuk 2
some-alt