Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Відкриття HTML-файлу | Ознайомлення з HTML
Web Scraping з Python

bookВідкриття HTML-файлу

Ви вже ознайомилися з основними аспектами HTML, тож давайте розглянемо початковий спосіб роботи з ним у Python.

Один із модулів, який можна використовувати для роботи з HTML файлами у Python, — це urllib.request. Необхідно виконати import методу urlopen, щоб отримати доступ до вебсторінок. Просто передайте URL сторінки, яку потрібно відкрити, як параметр цього методу.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Як видно з наведеного вище прикладу, у результаті ви отримуєте об'єкт http.client.HTTPResponse, що відрізняється від очікуваного. Щоб отримати структуру HTML, слід застосувати до отриманого об'єкта методи .read() та .decode("utf-8").

Note
Визначення

Частина decode("utf-8") використовується для перетворення сирих бінарних даних у зрозумілий для людини рядок, за умови, що вміст вебсторінки закодовано за допомогою UTF-8. Це перетворення дозволяє працювати з текстовими даними, що містяться на вебсторінці, наприклад, для їх парсингу чи аналізу.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

У результаті застосування методів .read() та .decode() ви отримуєте рядок. Цей рядок містить структуру HTML у зручному для читання форматі, що дозволяє легко застосовувати до нього рядкові методи.

Якщо не застосовувати метод .decode(), ви отримаєте об'єкт типу bytes, у якому вся сторінка HTML представлена як єдиний рядок зі спеціальними символами. Спробуйте поекспериментувати з цим!

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 8

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookВідкриття HTML-файлу

Свайпніть щоб показати меню

Ви вже ознайомилися з основними аспектами HTML, тож давайте розглянемо початковий спосіб роботи з ним у Python.

Один із модулів, який можна використовувати для роботи з HTML файлами у Python, — це urllib.request. Необхідно виконати import методу urlopen, щоб отримати доступ до вебсторінок. Просто передайте URL сторінки, яку потрібно відкрити, як параметр цього методу.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Як видно з наведеного вище прикладу, у результаті ви отримуєте об'єкт http.client.HTTPResponse, що відрізняється від очікуваного. Щоб отримати структуру HTML, слід застосувати до отриманого об'єкта методи .read() та .decode("utf-8").

Note
Визначення

Частина decode("utf-8") використовується для перетворення сирих бінарних даних у зрозумілий для людини рядок, за умови, що вміст вебсторінки закодовано за допомогою UTF-8. Це перетворення дозволяє працювати з текстовими даними, що містяться на вебсторінці, наприклад, для їх парсингу чи аналізу.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

У результаті застосування методів .read() та .decode() ви отримуєте рядок. Цей рядок містить структуру HTML у зручному для читання форматі, що дозволяє легко застосовувати до нього рядкові методи.

Якщо не застосовувати метод .decode(), ви отримаєте об'єкт типу bytes, у якому вся сторінка HTML представлена як єдиний рядок зі спеціальними символами. Спробуйте поекспериментувати з цим!

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 8
some-alt