Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Abriendo Archivo HTML | Familiarizándose con HTML
Web Scraping con Python

bookAbriendo Archivo HTML

Ya familiarizado con los aspectos fundamentales de HTML, exploremos el método inicial para trabajar con él en Python.

Uno de los módulos que se pueden emplear para manejar archivos HTML en Python es urllib.request. Es necesario import el método urlopen para acceder a páginas web. Simplemente proporcione la URL de la página que desea abrir como un parámetro para este método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como se observa en el ejemplo anterior, se recibe un objeto http.client.HTTPResponse como resultado, lo cual difiere de lo que se pretendía. Para obtener la estructura HTML, se deben aplicar los métodos .read() y .decode("utf-8") al objeto adquirido.

Note
Definición

La parte decode("utf-8") se utiliza para convertir los datos binarios en bruto en una cadena legible para humanos, asumiendo que el contenido de la página web está codificado usando UTF-8. Esta conversión permite trabajar con los datos de texto contenidos en la página web de manera significativa, como analizar o procesar su contenido.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado de aplicar los métodos .read() y .decode(), se obtiene una cadena de texto. Esta cadena contiene la estructura HTML de manera bien formateada, lo que la hace fácilmente legible y permite aplicar métodos de cadena sobre ella.

Si no se aplicara el método .decode(), se recibiría un objeto bytes con toda la página HTML representada como una sola cadena con caracteres específicos. ¡Se recomienda experimentar con esto!

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 8

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookAbriendo Archivo HTML

Desliza para mostrar el menú

Ya familiarizado con los aspectos fundamentales de HTML, exploremos el método inicial para trabajar con él en Python.

Uno de los módulos que se pueden emplear para manejar archivos HTML en Python es urllib.request. Es necesario import el método urlopen para acceder a páginas web. Simplemente proporcione la URL de la página que desea abrir como un parámetro para este método.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Como se observa en el ejemplo anterior, se recibe un objeto http.client.HTTPResponse como resultado, lo cual difiere de lo que se pretendía. Para obtener la estructura HTML, se deben aplicar los métodos .read() y .decode("utf-8") al objeto adquirido.

Note
Definición

La parte decode("utf-8") se utiliza para convertir los datos binarios en bruto en una cadena legible para humanos, asumiendo que el contenido de la página web está codificado usando UTF-8. Esta conversión permite trabajar con los datos de texto contenidos en la página web de manera significativa, como analizar o procesar su contenido.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Como resultado de aplicar los métodos .read() y .decode(), se obtiene una cadena de texto. Esta cadena contiene la estructura HTML de manera bien formateada, lo que la hace fácilmente legible y permite aplicar métodos de cadena sobre ella.

Si no se aplicara el método .decode(), se recibiría un objeto bytes con toda la página HTML representada como una sola cadena con caracteres específicos. ¡Se recomienda experimentar con esto!

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 8
some-alt