Aprende Exploración Básica de DataFrame

Desliza para mostrar el menú

Definición

La exploración de DataFrame es el proceso de inspeccionar la estructura, los tipos de datos y el contenido de un DataFrame. Comandos como printSchema() y display() son las herramientas principales utilizadas para validar que los datos se han cargado correctamente antes de comenzar un análisis.

Una vez que has cargado tus datos en un DataFrame, no puedes simplemente asumir que es perfecto. Debes inspeccionarlo para comprender con qué estás trabajando. En este capítulo, utilizarás dos comandos esenciales de Python para "ver bajo el capó" de nuestro DataFrame sales_records.

Inspección de la estructura: printSchema()

Lo primero que hace un profesional de datos con un nuevo DataFrame es revisar el esquema. El esquema es el plano de tus datos: te indica el nombre de cada columna y el tipo de dato que contiene (Integer, String, Double, etc.).

En una nueva celda, ejecuta:

df.printSchema()

La salida será una lista en forma de árbol. Aquí es donde se verifica que "Total_Revenue" sea de tipo numérico (como double) y no solo un texto. Si una columna que esperabas que fuera un número aparece como string, sabes que debes corregir los tipos de datos antes de realizar cálculos.

Inspección del contenido: display()

Mientras que printSchema() muestra la estructura, display() muestra los datos reales. Como se mencionó en la Sección 3, display() es una función potente y específica de Databricks.

Ejecutar:

display(df)

Esto muestra las primeras 10,000 filas de tu DataFrame en una cuadrícula interactiva. Oportunidad para identificar datos "sucios", como valores faltantes (mostrados como null) o formatos inconsistentes en las columnas "Region" o "Item_Type".

Estadísticas rápidas: describe() y summary()

Para ver los cálculos estadísticos de tus columnas sin escribir consultas complejas, puedes utilizar el comando describe():

display(df.describe())

Esto devuelve una tabla que muestra el Conteo, Media, Desviación estándar, Mínimo y Máximo para cada columna numérica. Es la forma más rápida de verificar valores atípicos; por ejemplo, si el "Mín" del precio es un número negativo, se sabe que hay un error en los datos de origen.

Conteo de filas: count()

Para conocer la escala de tu conjunto de datos, utiliza el método count():

print(df.count())

Esto devuelve un solo número entero que representa el número total de filas. Es útil para verificar que no se haya perdido ningún dato durante el proceso de carga.

Visualización de nombres de columnas

Por último, si solo necesitas una lista rápida de los nombres de las columnas para copiar y pegar en otra función, utiliza:

print(df.columns)

Esto devuelve una lista simple de Python con todos los encabezados, lo cual es muy útil cuando tu DataFrame tiene docenas de columnas y no recuerdas la ortografía exacta de alguna.

1. ¿Qué comando deberías usar para ver el "plano" de tu DataFrame, incluyendo todos los nombres de columnas y tipos de datos?

2. ¿Cuál es el propósito de ejecutar display(df.describe())?

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 4. Capítulo 3