Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende División de Datos en Fragmentos | Trabajando con Grandes Conjuntos de Datos
Gestión de Grandes Datos con Python

División de Datos en Fragmentos

Desliza para mostrar el menú

El manejo de conjuntos de datos grandes que no pueden cargarse completamente en la memoria requiere un enfoque diferente al de simplemente cargar todo el archivo. Cuando intentas cargar un archivo CSV masivo en pandas con la función habitual read_csv, puedes encontrarte con errores de memoria o ralentizaciones significativas. Para evitar esto, puedes dividir los datos en fragmentos más pequeños y manejables y procesar cada uno de forma independiente. Esta técnica es especialmente útil en escenarios como:

  • Análisis de archivos de registro grandes;
  • Procesamiento de exportaciones de datos desde bases de datos;
  • Trabajo con datos de series temporales recopilados durante largos períodos.

Dividir los datos en fragmentos permite procesar solo una pequeña parte del conjunto de datos a la vez, lo que mantiene bajo el uso de memoria y permite trabajar de manera eficiente incluso en hardware modesto. Por ejemplo, si necesitas calcular estadísticas o filtrar filas de un archivo con millones de registros, leer en fragmentos significa que puedes procesar cada parte y, si es necesario, agregar los resultados sobre la marcha. Este enfoque también es útil cuando se desea transmitir datos a una canalización de aprendizaje automático o realizar limpieza de datos incremental.

1234567891011
import pandas as pd # Assume 'large_file.csv' is a very large CSV file url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv" chunk_size = 100 # Number of rows per chunk # To read.csv() from directory you use same syntax for chunk in pd.read_csv(url, chunksize=chunk_size): # Count rows in this chunk print("Chunk has", len(chunk), "rows")
question mark

¿Qué parámetro en pandas.read_csv te permite procesar un archivo en fragmentos?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 2
some-alt