Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Challenge: Agrégation de Données par Blocs | Travail avec de grands ensembles de données
Gestion de Grandes Données avec Python
Section 1. Chapitre 4
single

single

Challenge: Agrégation de Données par Blocs

Glissez pour afficher le menu

Lors du traitement de grands ensembles de données, il est souvent nécessaire d'effectuer des agrégations sans charger l'intégralité du fichier en mémoire. Une tâche courante consiste à additionner les valeurs d'une colonne spécifique dans un fichier CSV très volumineux. Comme le fichier peut ne pas tenir en mémoire, il est possible de le traiter par portions gérables en utilisant la fonction pandas de read_csv() avec le paramètre chunksize.

Pour chaque portion, il faut calculer la somme de la colonne souhaitée, puis agréger ces sommes partielles pour obtenir le total. Cette méthode est efficace et évolutive, permettant de traiter des fichiers de pratiquement n'importe quelle taille, à condition que chaque portion tienne en mémoire.

Tâche

Glissez pour commencer à coder

Écrire une fonction qui retourne la somme totale d'une colonne spécifiée dans un fichier CSV volumineux en lisant le fichier par blocs.

  • Pour chaque bloc, calculer la somme de la colonne spécifiée.
  • Agréger les sommes de tous les blocs pour obtenir la somme totale.
  • Retourner la somme totale sous forme d'une seule valeur.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

some-alt