Базове Дослідження DataFrame
Свайпніть щоб показати меню
Дослідження DataFrame — це процес перевірки структури, типів даних і вмісту DataFrame. Команди, такі як printSchema() та display(), є основними інструментами для перевірки правильності завантаження даних перед початком аналізу.
Після завантаження даних у DataFrame не можна просто припустити, що вони ідеальні. Необхідно перевірити їх, щоб зрозуміти, з чим ви працюєте. У цьому розділі буде використано дві основні команди Python для "загляду під капот" DataFrame sales_records.
Перевірка структури: printSchema()
Перше, що робить спеціаліст з даних із новим DataFrame, — перевіряє схему. Схема — це креслення ваших даних: вона показує назву кожного стовпця та тип даних, який він містить (Integer, String, Double тощо).
У новій комірці виконайте:
df.printSchema()
Вивід буде у вигляді списку-дерева. Тут можна перевірити, що "Total_Revenue" має числовий тип (наприклад, double), а не є текстовим значенням. Якщо стовпець, який очікувався як числовий, позначено як string, необхідно виправити типи даних перед виконанням обчислень.
Перевірка вмісту: display()
Поки printSchema() показує структуру, display() відображає фактичні дані. Як обговорювалося в Розділі 3, display() — це потужна функція, специфічна для Databricks.
Виконайте:
display(df)
Це відображає перші 10 000 рядків вашого DataFrame в інтерактивній сітці. Це можливість виявити "брудні" дані, такі як відсутні значення (позначені як null) або неконсистентне форматування у стовпцях "Region" чи "Item_Type".
Швидка статистика: describe() та summary()
Якщо потрібно переглянути "математику" ваших стовпців без написання складних запитів, можна скористатися командою describe():
display(df.describe())
Це повертає таблицю з кількістю, середнім значенням, стандартним відхиленням, мінімумом та максимумом для кожного числового стовпця. Найшвидший спосіб перевірити наявність викидів — наприклад, якщо ваше значення "Min" для ціни є від’ємним числом, це свідчить про помилку у вихідних даних.
Підрахунок рядків: count()
Щоб дізнатися масштаб вашого набору даних, використовуйте метод count():
print(df.count())
Це повертає одне ціле число, що представляє загальну кількість рядків. Корисно для перевірки, чи не було втрачено дані під час процесу завантаження.
Перегляд назв стовпців
Якщо потрібно швидко отримати список назв стовпців для копіювання в іншу функцію, використовуйте:
print(df.columns)
Це повертає простий список Python з усіма заголовками, що дуже корисно, коли у вашому DataFrame десятки стовпців і ви не пам'ятаєте точне написання якогось із них.
1. Яку команду слід використати, щоб побачити «схему» вашого DataFrame, включаючи всі назви стовпців і типи даних?
2. Яке призначення виконання display(df.describe())?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат