Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Challenge: Filtrado de Grandes Conjuntos de Datos | Trabajando con Grandes Conjuntos de Datos
Gestión de Grandes Datos con Python
Sección 1. Capítulo 5
single

single

Challenge: Filtrado de Grandes Conjuntos de Datos

Desliza para mostrar el menú

Imagina que tienes la tarea de analizar un archivo CSV masivo que contiene millones de registros, demasiado grande para cargarlo completamente en memoria. El objetivo es extraer solo aquellas filas donde el valor de una columna específica supere un umbral determinado, guardando los resultados filtrados en un nuevo archivo. Este escenario es común en el análisis de datos a gran escala, donde el procesamiento eficiente y que ahorre memoria es esencial.

Tarea

Desliza para comenzar a programar

Implementación de una función que procese un archivo CSV grande en bloques y escriba solo las filas donde el valor de la columna especificada sea mayor que el umbral dado en un nuevo archivo.

  • Lectura del archivo CSV de entrada en bloques de tamaño chunk_size.
  • Para cada bloque, filtrado de filas donde la columna especificada por column sea mayor que threshold.
  • Escritura de todas las filas filtradas en el archivo CSV de salida, incluyendo la fila de encabezado.
  • Si ninguna fila cumple la condición, escritura únicamente del encabezado en el archivo de salida.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 5
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

some-alt