Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Abriendo Archivo HTML | Familiarizándose con HTML
Web Scraping con Python

bookAbriendo Archivo HTML

Ya tienes conocimientos básicos de HTML, así que ahora explora el primer método para trabajar con él en Python.

Uno de los módulos que puedes utilizar para manejar archivos HTML en Python es urllib.request. Es necesario import el método urlopen para acceder a páginas web. Simplemente proporciona la URL de la página que deseas abrir como parámetro de este método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como se muestra en el ejemplo anterior, el resultado es un objeto http.client.HTTPResponse, que no es la salida deseada. Para obtener la estructura HTML, aplica los métodos .read() y .decode('utf-8') al objeto recibido.

Note
Definición

La parte decode("utf-8") se utiliza para convertir los datos binarios en bruto en una cadena legible por humanos, asumiendo que el contenido de la página web está codificado usando UTF-8. Esta conversión permite trabajar con los datos de texto contenidos en la página web de manera significativa, como analizar o procesar su contenido.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado de aplicar los métodos .read() y .decode(), se obtiene una cadena de texto. Esta cadena contiene la estructura HTML de manera bien formateada, lo que la hace fácilmente legible y permite aplicar métodos de cadena sobre ella.

Si no se aplicara el método .decode(), se recibiría un objeto bytes con toda la página HTML representada como una sola cadena con caracteres específicos. ¡No dudes en experimentar con ello!

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 8

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.35

bookAbriendo Archivo HTML

Desliza para mostrar el menú

Ya tienes conocimientos básicos de HTML, así que ahora explora el primer método para trabajar con él en Python.

Uno de los módulos que puedes utilizar para manejar archivos HTML en Python es urllib.request. Es necesario import el método urlopen para acceder a páginas web. Simplemente proporciona la URL de la página que deseas abrir como parámetro de este método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como se muestra en el ejemplo anterior, el resultado es un objeto http.client.HTTPResponse, que no es la salida deseada. Para obtener la estructura HTML, aplica los métodos .read() y .decode('utf-8') al objeto recibido.

Note
Definición

La parte decode("utf-8") se utiliza para convertir los datos binarios en bruto en una cadena legible por humanos, asumiendo que el contenido de la página web está codificado usando UTF-8. Esta conversión permite trabajar con los datos de texto contenidos en la página web de manera significativa, como analizar o procesar su contenido.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado de aplicar los métodos .read() y .decode(), se obtiene una cadena de texto. Esta cadena contiene la estructura HTML de manera bien formateada, lo que la hace fácilmente legible y permite aplicar métodos de cadena sobre ella.

Si no se aplicara el método .decode(), se recibiría un objeto bytes con toda la página HTML representada como una sola cadena con caracteres específicos. ¡No dudes en experimentar con ello!

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 8
some-alt