Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Challenge: Filtrer de Grands Ensembles de Données | Travail avec de grands ensembles de données
Gestion de Grandes Données avec Python
Section 1. Chapitre 5
single

single

Challenge: Filtrer de Grands Ensembles de Données

Glissez pour afficher le menu

Supposons que vous deviez analyser un fichier CSV volumineux contenant des millions d'enregistrements—trop important pour être chargé en mémoire en une seule fois. L'objectif est d'extraire uniquement les lignes où la valeur d'une colonne spécifique dépasse un certain seuil, puis d'enregistrer les résultats filtrés dans un nouveau fichier. Ce scénario est courant dans l'analyse de données à grande échelle, où un traitement efficace et économe en mémoire est essentiel.

Tâche

Glissez pour commencer à coder

Implémenter une fonction qui traite un fichier CSV volumineux par blocs et écrit uniquement les lignes où la valeur de la colonne spécifiée est supérieure au seuil donné dans un nouveau fichier.

  • Lire le fichier CSV d'entrée par blocs de taille chunk_size.
  • Pour chaque bloc, filtrer les lignes où la colonne spécifiée par column est supérieure à threshold.
  • Écrire toutes les lignes filtrées dans le fichier CSV de sortie, y compris la ligne d'en-tête.
  • Si aucune ligne ne correspond à la condition, écrire uniquement l'en-tête dans le fichier de sortie.

Solution

Switch to desktopPassez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 5
single

single

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

some-alt