Що таке Beautiful Soup?
BeautifulSoup
— це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що накладало суттєві обмеження.
Щоб встановити BeautifulSoup
, виконайте наступну команду у вашому терміналі або командному рядку:
pip install beautifulsoup4
;- Для початку імпортуйте
BeautifulSoup
з пакетуbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак ви вже знаєте, як працювати з цим за допомогою urlopen з urllib.requests
. Для початку парсингу потрібно передати два параметри у функцію BeautifulSoup
: перший — це HTML файл, а другий — парсер (ми будемо використовувати вбудований парсер html.parser
). Ця дія створить об'єкт BeautifulSoup
. Наприклад, відкриємо та зчитаємо веб-сторінку.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Перший метод, який ми розглянемо, — це .prettify()
, який відображає HTML файл як вкладену структуру даних.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What is the purpose of specifying "html.parser" as the parser?
Awesome!
Completion rate improved to 4.35
Що таке Beautiful Soup?
Свайпніть щоб показати меню
BeautifulSoup
— це бібліотека Python, яка надає широкі можливості для розбору HTML-сторінок. У попередньому розділі ви працювали з HTML як зі строкою, що накладало суттєві обмеження.
Щоб встановити BeautifulSoup
, виконайте наступну команду у вашому терміналі або командному рядку:
pip install beautifulsoup4
;- Для початку імпортуйте
BeautifulSoup
з пакетуbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Ця бібліотека призначена для роботи з HTML файлами і не обробляє посилання. Однак ви вже знаєте, як працювати з цим за допомогою urlopen з urllib.requests
. Для початку парсингу потрібно передати два параметри у функцію BeautifulSoup
: перший — це HTML файл, а другий — парсер (ми будемо використовувати вбудований парсер html.parser
). Ця дія створить об'єкт BeautifulSoup
. Наприклад, відкриємо та зчитаємо веб-сторінку.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Перший метод, який ми розглянемо, — це .prettify()
, який відображає HTML файл як вкладену структуру даних.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Дякуємо за ваш відгук!