Відкриття HTML-файлу
Ви вже знайомі з основами HTML, тому зараз розгляньте перший спосіб роботи з ним у Python.
Один із модулів, який можна використовувати для роботи з HTML файлами у Python, — це urllib.request. Необхідно виконати import методу urlopen, щоб отримати доступ до веб-сторінок. Просто передайте URL сторінки, яку потрібно відкрити, як параметр цього методу.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Як показано у наведеному вище прикладі, результатом є об'єкт http.client.HTTPResponse, що не є бажаним результатом. Щоб отримати структуру HTML, застосуйте методи .read() та .decode('utf-8') до отриманого об'єкта.
Частина decode("utf-8") використовується для перетворення сирих бінарних даних у рядок, зрозумілий людині, за умови, що вміст вебсторінки закодовано за допомогою UTF-8. Це перетворення дозволяє працювати з текстовими даними, що містяться на вебсторінці, наприклад, для їх парсингу або аналізу.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
У результаті застосування методів .read() та .decode() ви отримуєте рядок. Цей рядок містить структуру HTML у добре відформатованому вигляді, що робить її легкою для читання та дозволяє застосовувати до неї методи для роботи з рядками.
Якщо не застосовувати метод .decode(), ви отримаєте об'єкт типу bytes, у якому вся сторінка HTML представлена як один рядок зі спеціальними символами. Можна спробувати попрацювати з цим для експерименту!
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Awesome!
Completion rate improved to 4.35
Відкриття HTML-файлу
Свайпніть щоб показати меню
Ви вже знайомі з основами HTML, тому зараз розгляньте перший спосіб роботи з ним у Python.
Один із модулів, який можна використовувати для роботи з HTML файлами у Python, — це urllib.request. Необхідно виконати import методу urlopen, щоб отримати доступ до веб-сторінок. Просто передайте URL сторінки, яку потрібно відкрити, як параметр цього методу.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Як показано у наведеному вище прикладі, результатом є об'єкт http.client.HTTPResponse, що не є бажаним результатом. Щоб отримати структуру HTML, застосуйте методи .read() та .decode('utf-8') до отриманого об'єкта.
Частина decode("utf-8") використовується для перетворення сирих бінарних даних у рядок, зрозумілий людині, за умови, що вміст вебсторінки закодовано за допомогою UTF-8. Це перетворення дозволяє працювати з текстовими даними, що містяться на вебсторінці, наприклад, для їх парсингу або аналізу.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
У результаті застосування методів .read() та .decode() ви отримуєте рядок. Цей рядок містить структуру HTML у добре відформатованому вигляді, що робить її легкою для читання та дозволяє застосовувати до неї методи для роботи з рядками.
Якщо не застосовувати метод .decode(), ви отримаєте об'єкт типу bytes, у якому вся сторінка HTML представлена як один рядок зі спеціальними символами. Можна спробувати попрацювати з цим для експерименту!
Дякуємо за ваш відгук!