single
Challenge: Filtrer de Grands Ensembles de Données
Glissez pour afficher le menu
Supposons que vous deviez analyser un fichier CSV volumineux contenant des millions d'enregistrements—trop important pour être chargé en mémoire en une seule fois. L'objectif est d'extraire uniquement les lignes où la valeur d'une colonne spécifique dépasse un certain seuil, puis d'enregistrer les résultats filtrés dans un nouveau fichier. Ce scénario est courant dans l'analyse de données à grande échelle, où un traitement efficace et économe en mémoire est essentiel.
Glissez pour commencer à coder
Implémenter une fonction qui traite un fichier CSV volumineux par blocs et écrit uniquement les lignes où la valeur de la colonne spécifiée est supérieure au seuil donné dans un nouveau fichier.
- Lire le fichier CSV d'entrée par blocs de taille
chunk_size. - Pour chaque bloc, filtrer les lignes où la colonne spécifiée par
columnest supérieure àthreshold. - Écrire toutes les lignes filtrées dans le fichier CSV de sortie, y compris la ligne d'en-tête.
- Si aucune ligne ne correspond à la condition, écrire uniquement l'en-tête dans le fichier de sortie.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion