Abrindo Arquivo HTML
Tendo se familiarizado com os aspectos fundamentais do HTML, vamos explorar o método inicial de trabalhar com ele em Python.
Um dos módulos que podem ser utilizados para manipular arquivos HTML em Python é o urllib.request
. Você precisará import
o método urlopen
para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para esse método.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Como visto no exemplo acima, você recebe um objeto http.client.HTTPResponse
como resultado, que difere do que pretendíamos. Para obter a estrutura HTML, deve-se aplicar os métodos .read()
e .decode("utf-8")
ao objeto adquirido.
A parte decode("utf-8")
é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página esteja codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para analisar ou processar seu conteúdo.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Como resultado da aplicação dos métodos .read()
e .decode()
, obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.
Se o método .decode()
não fosse aplicado, você receberia um objeto do tipo bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4.35
Abrindo Arquivo HTML
Deslize para mostrar o menu
Tendo se familiarizado com os aspectos fundamentais do HTML, vamos explorar o método inicial de trabalhar com ele em Python.
Um dos módulos que podem ser utilizados para manipular arquivos HTML em Python é o urllib.request
. Você precisará import
o método urlopen
para acessar páginas da web. Basta fornecer a URL da página que deseja abrir como parâmetro para esse método.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Como visto no exemplo acima, você recebe um objeto http.client.HTTPResponse
como resultado, que difere do que pretendíamos. Para obter a estrutura HTML, deve-se aplicar os métodos .read()
e .decode("utf-8")
ao objeto adquirido.
A parte decode("utf-8")
é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página esteja codificado em UTF-8. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para analisar ou processar seu conteúdo.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Como resultado da aplicação dos métodos .read()
e .decode()
, obtém-se uma string. Essa string contém a estrutura HTML de forma bem formatada, facilitando a leitura e permitindo a aplicação de métodos de string.
Se o método .decode()
não fosse aplicado, você receberia um objeto do tipo bytes com toda a página HTML representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!
Obrigado pelo seu feedback!