Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Aplicando Métodos de String | Familiarizando-se com HTML
Web Scraping com Python

bookAplicando Métodos de String

O que pode ser feito com a página que você leu? Como ela é uma string, é possível utilizar qualquer método de string. Por exemplo, o método .find() retorna o índice da primeira ocorrência de um elemento específico. Ele pode ser utilizado para localizar o título da página, encontrando os índices das tags de abertura e fechamento e considerando o comprimento da tag de fechamento.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Como mostrado no exemplo acima, duas variáveis, start e finish, foram criadas. A variável start armazena o índice do primeiro caractere dentro da tag de abertura <title>, enquanto a variável finish armazena o índice do caractere logo após a tag de fechamento </title>. O método .find() retorna o índice inicial da tag de fechamento, então o comprimento da tag é somado para obter a posição final.

Note
Aprofunde-se

A fatia de listas exclui o último elemento, por isso o próximo caractere após a tag de fechamento é utilizado.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4.35

bookAplicando Métodos de String

Deslize para mostrar o menu

O que pode ser feito com a página que você leu? Como ela é uma string, é possível utilizar qualquer método de string. Por exemplo, o método .find() retorna o índice da primeira ocorrência de um elemento específico. Ele pode ser utilizado para localizar o título da página, encontrando os índices das tags de abertura e fechamento e considerando o comprimento da tag de fechamento.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Como mostrado no exemplo acima, duas variáveis, start e finish, foram criadas. A variável start armazena o índice do primeiro caractere dentro da tag de abertura <title>, enquanto a variável finish armazena o índice do caractere logo após a tag de fechamento </title>. O método .find() retorna o índice inicial da tag de fechamento, então o comprimento da tag é somado para obter a posição final.

Note
Aprofunde-se

A fatia de listas exclui o último elemento, por isso o próximo caractere após a tag de fechamento é utilizado.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10
some-alt