Aprenda Exploração Básica de DataFrame

Deslize para mostrar o menu

Definição

A exploração de DataFrame é o processo de inspecionar a estrutura, os tipos de dados e o conteúdo de um DataFrame. Comandos como printSchema() e display() são as principais ferramentas utilizadas para validar se os dados foram carregados corretamente antes de iniciar uma análise.

Depois de carregar seus dados em um DataFrame, não se pode simplesmente assumir que eles estão perfeitos. É necessário inspecioná-los para entender com o que se está trabalhando. Neste capítulo, serão utilizados dois comandos essenciais do Python para "examinar em detalhes" o DataFrame sales_records.

Inspecionando a Estrutura: printSchema()

A primeira ação de um profissional de dados com um novo DataFrame é verificar o Schema. O schema é o projeto dos seus dados—ele informa o nome de cada coluna e o tipo de dado que ela armazena (Integer, String, Double, etc.).

Em uma nova célula, execute:

df.printSchema()

A saída será uma lista em formato de árvore. É aqui que você verifica se "Total_Revenue" é um tipo numérico (como double) e não apenas um texto. Se uma coluna que você esperava ser numérica estiver listada como string, será necessário corrigir os tipos de dados antes de realizar cálculos.

Inspecionando o Conteúdo: display()

Enquanto printSchema() mostra a estrutura, display() exibe os dados reais. Como discutido na Seção 3, display() é uma função poderosa e específica do Databricks.

Execute:

display(df)

Isso exibe as primeiras 10.000 linhas do seu DataFrame em uma grade interativa. Oportunidade para identificar dados "sujos", como valores ausentes (exibidos como null) ou formatação inconsistente nas colunas "Region" ou "Item_Type".

Estatísticas rápidas: describe() e summary()

Para visualizar os cálculos das suas colunas sem escrever consultas complexas, utilize o comando describe():

display(df.describe())

Isso retorna uma tabela mostrando a Contagem, Média, Desvio Padrão, Mínimo e Máximo para cada coluna numérica. É a maneira mais rápida de verificar valores discrepantes — por exemplo, se o seu preço "Mínimo" for um número negativo, você sabe que há um erro nos dados de origem.

Contagem de Linhas: count()

Para conhecer a escala do seu conjunto de dados, utilize o método count():

print(df.count())

Isso retorna um único número inteiro que representa o total de linhas. Útil para verificar se nenhum dado foi perdido durante o processo de carregamento.

Visualização dos nomes das colunas

Por fim, caso seja necessário apenas uma lista rápida dos nomes das colunas para copiar e colar em outra função, utilize:

print(df.columns)

Isso retorna uma lista Python simples com todos os cabeçalhos, o que é muito útil quando seu DataFrame possui dezenas de colunas e você não se lembra da grafia exata de alguma delas.

1. Qual comando você deve usar para ver o "projeto" do seu DataFrame, incluindo todos os nomes de colunas e tipos de dados?

2. Qual é o objetivo de executar display(df.describe())?

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 4. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 4. Capítulo 3