Aprende División de Datos en Fragmentos | Trabajando con Grandes Conjuntos de Datos

Desliza para mostrar el menú

El manejo de conjuntos de datos grandes que no pueden cargarse completamente en la memoria requiere un enfoque diferente al de simplemente cargar todo el archivo. Cuando intentas cargar un archivo CSV masivo en pandas con la función habitual read_csv, puedes encontrarte con errores de memoria o ralentizaciones significativas. Para evitar esto, puedes dividir los datos en fragmentos más pequeños y manejables y procesar cada uno de forma independiente. Esta técnica es especialmente útil en escenarios como:

Análisis de archivos de registro grandes;
Procesamiento de exportaciones de datos desde bases de datos;
Trabajo con datos de series temporales recopilados durante largos períodos.

Dividir los datos en fragmentos permite procesar solo una pequeña parte del conjunto de datos a la vez, lo que mantiene bajo el uso de memoria y permite trabajar de manera eficiente incluso en hardware modesto. Por ejemplo, si necesitas calcular estadísticas o filtrar filas de un archivo con millones de registros, leer en fragmentos significa que puedes procesar cada parte y, si es necesario, agregar los resultados sobre la marcha. Este enfoque también es útil cuando se desea transmitir datos a una canalización de aprendizaje automático o realizar limpieza de datos incremental.


              1234567891011
            
import pandas as pd

# Assume 'large_file.csv' is a very large CSV file
url = "https://content-media-cdn.codefinity.com/b8f3c268-0e60-4ff0-a3ea-f145595033d8/section1/large_file.csv"

chunk_size = 100  # Number of rows per chunk

# To read.csv() from directory you use same syntax
for chunk in pd.read_csv(url, chunksize=chunk_size):
    # Count rows in this chunk
    print("Chunk has", len(chunk), "rows")

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 2