Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Застосування Методів Рядків | Ознайомлення з HTML
Web Scraping з Python

bookЗастосування Методів Рядків

Що можна зробити з прочитаною сторінкою? Це рядок, тому можна використовувати будь-які методи рядків. Наприклад, можна скористатися методом .find(), який повертає індекс першого входження певного елемента. Наприклад, можна знайти заголовок сторінки, визначивши індекси першого відкриваючого та закриваючого тегів. Також врахуємо довжину закриваючого тегу.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Як показано у наведеному вище прикладі, було створено дві змінні: start та finish. Змінна start містить індекс першого елемента у першому входженні елемента <title>. Водночас змінна finish містить індекс символу, що йде одразу після закриваючого тегу </title>. Сам метод .find() повертає початковий індекс закриваючого тегу, тому ми додали довжину тегу, щоб отримати індекс останнього елемента.

Note
Дізнайтеся більше

Зріз списку виключає останній елемент, тому ми знаходимо наступний символ після закриваючого тегу.

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 10

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

How can I extract other elements from the HTML using similar techniques?

Awesome!

Completion rate improved to 4.35

bookЗастосування Методів Рядків

Свайпніть щоб показати меню

Що можна зробити з прочитаною сторінкою? Це рядок, тому можна використовувати будь-які методи рядків. Наприклад, можна скористатися методом .find(), який повертає індекс першого входження певного елемента. Наприклад, можна знайти заголовок сторінки, визначивши індекси першого відкриваючого та закриваючого тегів. Також врахуємо довжину закриваючого тегу.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Як показано у наведеному вище прикладі, було створено дві змінні: start та finish. Змінна start містить індекс першого елемента у першому входженні елемента <title>. Водночас змінна finish містить індекс символу, що йде одразу після закриваючого тегу </title>. Сам метод .find() повертає початковий індекс закриваючого тегу, тому ми додали довжину тегу, щоб отримати індекс останнього елемента.

Note
Дізнайтеся більше

Зріз списку виключає останній елемент, тому ми знаходимо наступний символ після закриваючого тегу.

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 10
some-alt