Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Você já está familiarizado com os conceitos básicos de **HTML**, então agora explore o primeiro método de trabalhar com ele em **Python**.


Um dos módulos que você pode utilizar para manipular arquivos __HTML__ em __Python__ é o `urllib.request`. Será necessário fazer o `import` do __método__ `urlopen` para acessar páginas da web. Basta fornecer a __URL__ da página que deseja abrir como um __parâmetro__ para esse __método__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Como mostrado no exemplo acima, o resultado é um objeto `http.client.HTTPResponse`, que não é a saída desejada. Para obter a estrutura **HTML**, aplique os métodos `.read()` e `.decode('utf-8')` ao objeto recebido.


A parte `decode("utf-8")` é utilizada para converter os dados binários brutos em uma string legível, assumindo que o conteúdo da página está codificado em **UTF-8**. Essa conversão permite trabalhar com os dados textuais contidos na página de forma significativa, como para análise ou processamento do conteúdo.

Definição

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Como resultado da aplicação dos métodos `.read()` e `.decode()`, você obtém uma string. Essa string contém a estrutura __HTML__ de forma bem formatada, tornando-a facilmente legível e permitindo a aplicação de métodos de string.

Se o método `.decode()` não fosse aplicado, você receberia um objeto __bytes__ com toda a página __HTML__ representada como uma única string com caracteres específicos. Sinta-se à vontade para experimentar!

Aprenda a extrair dados valiosos de sites automaticamente. Domine técnicas para coletar informações de forma eficiente, possibilitando análises aprofundadas, decisões orientadas por dados e a descoberta de novos insights a partir do vasto oceano de informações online.

Explore a estrutura de um arquivo HTML, aprenda a carregá-lo de forma eficiente e adquira habilidades práticas para trabalhar com os dados contidos nele.

Explore os conceitos básicos do Beautiful Soup para extrair dados de documentos HTML. Aprenda a navegar pela estrutura do HTML, acessar elementos específicos e trabalhar com seus elementos filhos para construir uma base sólida em web scraping.

Domine o trabalho com atributos de elementos e conteúdo utilizando o Beautiful Soup. Adquira habilidades para extrair informações específicas, buscar elementos por valores de atributos e aplicar técnicas avançadas para analisar e processar dados HTML de forma eficiente.

Abrindo Arquivo HTML