Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Aplicando Métodos de String | Familiarizando-se com HTML
Web Scraping com Python

bookAplicando Métodos de String

O que pode ser feito com a página lida? Trata-se de uma string, portanto, é possível utilizar qualquer método de string. Por exemplo, pode-se usar o método .find(), que retorna o índice da primeira ocorrência de um elemento específico. Por exemplo, é possível localizar o título da página identificando os índices das primeiras tags de abertura e fechamento. Também será considerado o comprimento da tag de fechamento.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Conforme demonstrado no exemplo acima, duas variáveis, start e finish, foram criadas. A variável start contém o índice do primeiro elemento dentro da ocorrência inicial do elemento <title>. Enquanto isso, a variável finish armazena o índice do caractere imediatamente após a tag de fechamento </title>. O próprio método .find() forneceu o índice inicial da tag de fechamento, por isso foi adicionado o comprimento da tag para obter o índice do último elemento.

Note
Estude Mais

A fatia de lista exclui o último elemento, por isso buscamos o próximo caractere após a tag de fechamento.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

How can I extract other elements from the HTML using similar techniques?

Awesome!

Completion rate improved to 4.35

bookAplicando Métodos de String

Deslize para mostrar o menu

O que pode ser feito com a página lida? Trata-se de uma string, portanto, é possível utilizar qualquer método de string. Por exemplo, pode-se usar o método .find(), que retorna o índice da primeira ocorrência de um elemento específico. Por exemplo, é possível localizar o título da página identificando os índices das primeiras tags de abertura e fechamento. Também será considerado o comprimento da tag de fechamento.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Conforme demonstrado no exemplo acima, duas variáveis, start e finish, foram criadas. A variável start contém o índice do primeiro elemento dentro da ocorrência inicial do elemento <title>. Enquanto isso, a variável finish armazena o índice do caractere imediatamente após a tag de fechamento </title>. O próprio método .find() forneceu o índice inicial da tag de fechamento, por isso foi adicionado o comprimento da tag para obter o índice do último elemento.

Note
Estude Mais

A fatia de lista exclui o último elemento, por isso buscamos o próximo caractere após a tag de fechamento.

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10
some-alt