Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Що таке Beautiful Soup? | Декодування HTML за допомогою Beautiful Soup
Web Scraping з Python

bookЩо таке Beautiful Soup?

BeautifulSoup — це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що накладало суттєві обмеження.

Щоб встановити BeautifulSoup, виконайте наступну команду у вашому терміналі або командному рядку:

  • pip install beautifulsoup4;
  • Для початку імпортуйте BeautifulSoup з пакету bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак ви вже знаєте, як працювати з цим за допомогою urlopen з urllib.requests. Для початку парсингу потрібно передати два параметри у функцію BeautifulSoup: перший — це HTML файл, а другий — парсер (ми будемо використовувати вбудований парсер html.parser). Ця дія створить об'єкт BeautifulSoup. Наприклад, відкриємо та зчитаємо веб-сторінку.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Перший метод, який ми розглянемо, — це .prettify(), який відображає HTML файл як вкладену структуру даних.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 1

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What is the purpose of specifying "html.parser" as the parser?

Awesome!

Completion rate improved to 4.35

bookЩо таке Beautiful Soup?

Свайпніть щоб показати меню

BeautifulSoup — це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що накладало суттєві обмеження.

Щоб встановити BeautifulSoup, виконайте наступну команду у вашому терміналі або командному рядку:

  • pip install beautifulsoup4;
  • Для початку імпортуйте BeautifulSoup з пакету bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак ви вже знаєте, як працювати з цим за допомогою urlopen з urllib.requests. Для початку парсингу потрібно передати два параметри у функцію BeautifulSoup: перший — це HTML файл, а другий — парсер (ми будемо використовувати вбудований парсер html.parser). Ця дія створить об'єкт BeautifulSoup. Наприклад, відкриємо та зчитаємо веб-сторінку.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Перший метод, який ми розглянемо, — це .prettify(), який відображає HTML файл як вкладену структуру даних.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 2. Розділ 1
some-alt