Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Застосування методів рядків | Ознайомлення з HTML
Web Scraping з Python

bookЗастосування методів рядків

Що можна зробити зі сторінкою, яку ви прочитали? Оскільки це рядок, можна використовувати будь-які методи для роботи з рядками. Наприклад, метод .find() повертає індекс першого входження певного елемента. Його можна використати для знаходження заголовка сторінки, визначивши індекси відкриваючого та закриваючого тегів і врахувавши довжину закриваючого тегу.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Як показано у наведеному вище прикладі, створено дві змінні: start і finish. Змінна start зберігає індекс першого символу у відкриваючому тегу <title>, а змінна finish — індекс символу одразу після закриваючого тегу </title>. Метод .find() повертає початковий індекс закриваючого тегу, тому до нього додається довжина тегу для отримання кінцевої позиції.

Note
Дізнайтеся більше

Зріз списку виключає останній елемент, тому використовується наступний символ після закриваючого тегу.

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 10

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 4.35

bookЗастосування методів рядків

Свайпніть щоб показати меню

Що можна зробити зі сторінкою, яку ви прочитали? Оскільки це рядок, можна використовувати будь-які методи для роботи з рядками. Наприклад, метод .find() повертає індекс першого входження певного елемента. Його можна використати для знаходження заголовка сторінки, визначивши індекси відкриваючого та закриваючого тегів і врахувавши довжину закриваючого тегу.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Як показано у наведеному вище прикладі, створено дві змінні: start і finish. Змінна start зберігає індекс першого символу у відкриваючому тегу <title>, а змінна finish — індекс символу одразу після закриваючого тегу </title>. Метод .find() повертає початковий індекс закриваючого тегу, тому до нього додається довжина тегу для отримання кінцевої позиції.

Note
Дізнайтеся більше

Зріз списку виключає останній елемент, тому використовується наступний символ після закриваючого тегу.

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 10
some-alt