Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Ya tienes conocimientos básicos de **HTML**, así que ahora explora el primer método para trabajar con él en **Python**.


Uno de los módulos que puedes utilizar para manejar archivos __HTML__ en __Python__ es `urllib.request`. Es necesario `import` el __método__ `urlopen` para acceder a páginas web. Simplemente proporciona la __URL__ de la página que deseas abrir como un __parámetro__ para este __método__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Como se muestra en el ejemplo anterior, el resultado es un objeto `http.client.HTTPResponse`, que no es la salida deseada. Para obtener la estructura **HTML**, aplica los métodos `.read()` y `.decode('utf-8')` al objeto recibido.


La parte `decode("utf-8")` se utiliza para convertir los datos binarios en bruto en una cadena legible para humanos, suponiendo que el contenido de la página web esté codificado usando **UTF-8**. Esta conversión nos permite trabajar con los datos de texto contenidos en la página web de manera significativa, como analizar o procesar su contenido.

Definición

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Como resultado de aplicar los métodos `.read()` y `.decode()`, se obtiene una cadena de texto. Esta cadena contiene la estructura __HTML__ de manera bien formateada, lo que facilita su lectura y permite aplicar métodos de cadena sobre ella.

Si no se aplicara el método `.decode()`, se recibiría un objeto __bytes__ con toda la página __HTML__ representada como una sola cadena con caracteres específicos. ¡No dude en experimentar con ello!

Aprenda a extraer datos valiosos de sitios web de forma automática. Domine técnicas para recopilar información de manera eficiente, permitiendo realizar análisis en profundidad, tomar decisiones basadas en datos y descubrir nuevos conocimientos a partir del vasto océano de información en línea.

Explora la estructura de un archivo HTML, aprende a cargarlo de manera eficiente y adquiere habilidades prácticas para trabajar con los datos que contiene.

Explora los conceptos básicos de Beautiful Soup para extraer datos de documentos HTML. Aprende a navegar por la estructura de HTML, acceder a elementos específicos y trabajar con sus elementos secundarios para construir una base sólida en web scraping.

Domine el trabajo con atributos y contenido de elementos utilizando Beautiful Soup. Adquiera las habilidades para extraer información específica, buscar elementos por valores de atributos y emplear técnicas avanzadas para analizar y procesar datos HTML de manera eficiente.

Abriendo Archivo HTML