Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Ви вже знайомі з основами **HTML**, тому зараз розгляньте перший спосіб роботи з ним у **Python**.


Один із модулів, який можна використовувати для роботи з __HTML__ файлами у __Python__, — це `urllib.request`. Необхідно виконати `import` методу `urlopen`, щоб отримати доступ до веб-сторінок. Просто передайте __URL__ сторінки, яку потрібно відкрити, як __параметр__ цього __методу__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Як показано у наведеному вище прикладі, результатом є об'єкт `http.client.HTTPResponse`, що не є бажаним результатом. Щоб отримати структуру **HTML**, застосуйте методи `.read()` та `.decode('utf-8')` до отриманого об'єкта.


Частина `decode("utf-8")` використовується для перетворення сирих бінарних даних у рядок, зрозумілий людині, за умови, що вміст вебсторінки закодовано за допомогою **UTF-8**. Це перетворення дозволяє працювати з текстовими даними, що містяться на вебсторінці, наприклад, для їх парсингу або аналізу.

Визначення

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

У результаті застосування методів `.read()` та `.decode()` ви отримуєте рядок. Цей рядок містить структуру __HTML__ у добре відформатованому вигляді, що робить її легкою для читання та дозволяє застосовувати до неї методи для роботи з рядками.

Якщо не застосовувати метод `.decode()`, ви отримаєте об'єкт типу __bytes__, у якому вся сторінка __HTML__ представлена як один рядок зі спеціальними символами. Можна спробувати попрацювати з цим для експерименту!

Навчіться автоматично отримувати цінні дані з вебсайтів. Опануйте методи ефективного збору інформації, що дозволить проводити глибокий аналіз, приймати рішення на основі даних і відкривати нові інсайти з величезного обсягу онлайн-інформації.

Дослідження структури HTML-файлу, ефективне завантаження та набуття практичних навичок роботи з його даними.

Ознайомлення з основами Beautiful Soup для вилучення даних із HTML-документів. Вивчення структури HTML, доступ до конкретних елементів і робота з їх дочірніми елементами для формування ґрунтовної бази у веб-скрапінгу.

Опанування роботи з атрибутами елементів та вмістом за допомогою Beautiful Soup. Формування навичок вилучення конкретної інформації, пошуку елементів за значеннями атрибутів і застосування розширених методів для ефективного парсингу та аналізу HTML-даних.

Відкриття HTML-файлу