Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Abrindo Arquivo HTML | Familiarizando-se com HTML
Web Scraping com Python

bookAbrindo Arquivo HTML

Tendo se familiarizado com os aspectos fundamentais do HTML, vamos explorar o método inicial de trabalhar com ele em Python.

Um dos módulos que podem ser utilizados para manipular arquivos HTML em Python é o urllib.request. Você precisará import o método urlopen para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para esse método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como visto no exemplo acima, você recebe um objeto http.client.HTTPResponse como resultado, que difere do que pretendíamos. Para obter a estrutura HTML, deve-se aplicar os métodos .read() e .decode("utf-8") ao objeto adquirido.

Note
Definição

A parte decode("utf-8") é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página esteja codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para analisar ou processar seu conteúdo.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado da aplicação dos métodos .read() e .decode(), obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.

Se o método .decode() não fosse aplicado, você receberia um objeto do tipo bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 8

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4.35

bookAbrindo Arquivo HTML

Deslize para mostrar o menu

Tendo se familiarizado com os aspectos fundamentais do HTML, vamos explorar o método inicial de trabalhar com ele em Python.

Um dos módulos que podem ser utilizados para manipular arquivos HTML em Python é o urllib.request. Você precisará import o método urlopen para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para esse método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como visto no exemplo acima, você recebe um objeto http.client.HTTPResponse como resultado, que difere do que pretendíamos. Para obter a estrutura HTML, deve-se aplicar os métodos .read() e .decode("utf-8") ao objeto adquirido.

Note
Definição

A parte decode("utf-8") é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página esteja codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para analisar ou processar seu conteúdo.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado da aplicação dos métodos .read() e .decode(), obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.

Se o método .decode() não fosse aplicado, você receberia um objeto do tipo bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 8
some-alt