Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Qué es Beautiful Soup? | Descifrando HTML con Beautiful Soup
Web Scraping con Python

book¿Qué es Beautiful Soup?

BeautifulSoup es una biblioteca de Python que ofrece una funcionalidad extensa para analizar páginas HTML. En la sección anterior, trabajaste con HTML como una cadena de texto, lo que imponía limitaciones significativas.

Para instalar BeautifulSoup, ejecuta el siguiente comando en tu terminal o símbolo del sistema:

  • pip install beautifulsoup4;
  • Para comenzar, importa BeautifulSoup desde bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Esta biblioteca está diseñada para trabajar con archivos HTML y no gestiona enlaces. Sin embargo, ya sabes cómo manejar eso usando urlopen de urllib.requests. Para iniciar el análisis, es necesario proporcionar dos parámetros a la función BeautifulSoup: el primero es el archivo HTML y el segundo es el analizador (utilizaremos el analizador incorporado html.parser). Esta acción creará un objeto BeautifulSoup. Por ejemplo, abramos y leamos una página web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

El primer método que exploraremos es .prettify(), que presenta el archivo HTML como una estructura de datos anidada.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.35

book¿Qué es Beautiful Soup?

Desliza para mostrar el menú

BeautifulSoup es una biblioteca de Python que ofrece una funcionalidad extensa para analizar páginas HTML. En la sección anterior, trabajaste con HTML como una cadena de texto, lo que imponía limitaciones significativas.

Para instalar BeautifulSoup, ejecuta el siguiente comando en tu terminal o símbolo del sistema:

  • pip install beautifulsoup4;
  • Para comenzar, importa BeautifulSoup desde bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Esta biblioteca está diseñada para trabajar con archivos HTML y no gestiona enlaces. Sin embargo, ya sabes cómo manejar eso usando urlopen de urllib.requests. Para iniciar el análisis, es necesario proporcionar dos parámetros a la función BeautifulSoup: el primero es el archivo HTML y el segundo es el analizador (utilizaremos el analizador incorporado html.parser). Esta acción creará un objeto BeautifulSoup. Por ejemplo, abramos y leamos una página web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

El primer método que exploraremos es .prettify(), que presenta el archivo HTML como una estructura de datos anidada.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 1
some-alt