Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Базове Дослідження DataFrame | Робота з Даними
Databricks: Основи для Початківців

Базове Дослідження DataFrame

Свайпніть щоб показати меню

Note
Визначення

Дослідження DataFrame — це процес перевірки структури, типів даних і вмісту DataFrame. Команди, такі як printSchema() та display(), є основними інструментами для перевірки правильності завантаження даних перед початком аналізу.

Після завантаження даних у DataFrame не можна просто припустити, що вони ідеальні. Необхідно перевірити їх, щоб зрозуміти, з чим ви працюєте. У цьому розділі буде використано дві основні команди Python для "загляду під капот" DataFrame sales_records.

Перевірка структури: printSchema()

Перше, що робить спеціаліст з даних із новим DataFrame, — перевіряє схему. Схема — це креслення ваших даних: вона показує назву кожного стовпця та тип даних, який він містить (Integer, String, Double тощо).

У новій комірці виконайте:

df.printSchema()

Вивід буде у вигляді списку-дерева. Тут можна перевірити, що "Total_Revenue" має числовий тип (наприклад, double), а не є текстовим значенням. Якщо стовпець, який очікувався як числовий, позначено як string, необхідно виправити типи даних перед виконанням обчислень.

Перевірка вмісту: display()

Поки printSchema() показує структуру, display() відображає фактичні дані. Як обговорювалося в Розділі 3, display() — це потужна функція, специфічна для Databricks.

Виконайте:

display(df)

Це відображає перші 10 000 рядків вашого DataFrame в інтерактивній сітці. Це можливість виявити "брудні" дані, такі як відсутні значення (позначені як null) або неконсистентне форматування у стовпцях "Region" чи "Item_Type".

Швидка статистика: describe() та summary()

Якщо потрібно переглянути "математику" ваших стовпців без написання складних запитів, можна скористатися командою describe():

display(df.describe())

Це повертає таблицю з кількістю, середнім значенням, стандартним відхиленням, мінімумом та максимумом для кожного числового стовпця. Найшвидший спосіб перевірити наявність викидів — наприклад, якщо ваше значення "Min" для ціни є від’ємним числом, це свідчить про помилку у вихідних даних.

Підрахунок рядків: count()

Щоб дізнатися масштаб вашого набору даних, використовуйте метод count():

print(df.count())

Це повертає одне ціле число, що представляє загальну кількість рядків. Корисно для перевірки, чи не було втрачено дані під час процесу завантаження.

Перегляд назв стовпців

Якщо потрібно швидко отримати список назв стовпців для копіювання в іншу функцію, використовуйте:

print(df.columns)

Це повертає простий список Python з усіма заголовками, що дуже корисно, коли у вашому DataFrame десятки стовпців і ви не пам'ятаєте точне написання якогось із них.

1. Яку команду слід використати, щоб побачити «схему» вашого DataFrame, включаючи всі назви стовпців і типи даних?

2. Яке призначення виконання display(df.describe())?

question mark

Яку команду слід використати, щоб побачити «схему» вашого DataFrame, включаючи всі назви стовпців і типи даних?

Виберіть правильну відповідь

question mark

Яке призначення виконання display(df.describe())?

Виберіть правильну відповідь

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 4. Розділ 3

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 4. Розділ 3
some-alt