Відображення та візуалізація результатів
Свайпніть щоб показати меню
Функція display() — це вбудована команда Databricks, яка використовується для відображення даних в інтерактивному, табличному або графічному форматі. Вона дозволяє користувачам досліджувати набори даних і створювати візуальні діаграми безпосередньо в нотатнику без необхідності використовувати зовнішні бібліотеки.
У Databricks простий запуск імені змінної або запиту покаже вам сирі дані. Однак, щоб зробити ці дані читабельними та «готовими до презентації», використовується команда display(). Це основний спосіб перетворення сирих чисел на візуальні інсайти.
Потужність display()
Під час роботи з Python ви можете звикнути використовувати print(). Хоча print() підходить для тексту, він не ідеальний для великих наборів даних. Використовуючи display(your_dataframe), Databricks відображає дані у вигляді інтерактивної таблиці.
Можливість прокручувати тисячі рядків. Можливість натискати на заголовки стовпців для сортування даних за зростанням або спаданням. Можливість використовувати вбудований рядок пошуку у результатах для миттєвого знаходження конкретних значень:
- Можливість прокручувати тисячі рядків;
- Можливість натискати на заголовки стовпців для сортування даних за зростанням або спаданням;
- Можливість використовувати вбудований рядок пошуку у результатах для миттєвого знаходження конкретних значень.
Створення автоматичних діаграм
Після виконання комірки з використанням display() або запуску SQL-запиту з'являється таблиця результатів. Безпосередньо під цією таблицею ви побачите іконку "+". Натиснувши на неї, ви можете вибрати "Visualization".
- Відкриється Visualization Editor;
- Можливість обрати різні типи діаграм: Bar, Line, Area, Pie, Scatter та інші;
- Просто перетягніть потрібні стовпці для осі X та осі Y. Databricks автоматично виконує агрегацію (наприклад, підсумовування або обчислення середнього значення).
Налаштування візуалізацій
Редактор візуалізацій створений для швидкої роботи. Ви можете:
- Змінювати кольори: призначати певні кольори різним рядам даних;
- Позначати осі: додавати власні назви до горизонтальної та вертикальної осей;
- Групувати дані: використовувати поле "Group by" для розділення однієї лінійної діаграми на кілька ліній за категорією, наприклад, "Region" або "Product Type."
Додавання візуалізацій до ноутбука
Після збереження візуалізації вона з'являється як окрема вкладка поруч із вашою таблицею даних. Ви можете мати кілька візуалізацій для однієї комірки. Наприклад, одна вкладка може показувати необроблені дані про продажі, друга — стовпчикову діаграму продажів за регіонами, а третя — кругову діаграму розподілу продуктів. Це допомагає впорядкувати ваш ноутбук і дозволяє зацікавленим сторонам побачити "історію" даних без перегляду коду.
Профілювання даних
Окрім діаграм, Databricks надає вкладку "Data Profile" у зоні результатів. Натискання на неї миттєво показує статистичне зведення ваших даних, відображаючи розподіл значень, кількість пропущених даних і мінімальні/максимальні значення для кожного стовпця. Це важливий етап очищення даних перед глибшим аналізом.
1. Яка основна перевага використання display() замість print() для набору даних?
2. Де потрібно натиснути, щоб почати створення діаграми з результатів вашого запиту?
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат