¿Qué es Beautiful Soup?
BeautifulSoup
es una biblioteca de Python que ofrece una funcionalidad extensa para analizar páginas HTML. En la sección anterior, trabajaste con HTML como una cadena de texto, lo que imponía limitaciones significativas.
Para instalar BeautifulSoup
, ejecuta el siguiente comando en tu terminal o símbolo del sistema:
pip install beautifulsoup4
;- Para comenzar, importa
BeautifulSoup
desdebs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Esta biblioteca está diseñada para trabajar con archivos HTML y no gestiona enlaces. Sin embargo, ya sabes cómo manejar eso usando urlopen de urllib.requests
. Para iniciar el análisis, es necesario proporcionar dos parámetros a la función BeautifulSoup
: el primero es el archivo HTML y el segundo es el analizador (utilizaremos el analizador incorporado html.parser
). Esta acción creará un objeto BeautifulSoup
. Por ejemplo, abramos y leamos una página web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
El primer método que exploraremos es .prettify()
, que presenta el archivo HTML como una estructura de datos anidada.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 4.35
¿Qué es Beautiful Soup?
Desliza para mostrar el menú
BeautifulSoup
es una biblioteca de Python que ofrece una funcionalidad extensa para analizar páginas HTML. En la sección anterior, trabajaste con HTML como una cadena de texto, lo que imponía limitaciones significativas.
Para instalar BeautifulSoup
, ejecuta el siguiente comando en tu terminal o símbolo del sistema:
pip install beautifulsoup4
;- Para comenzar, importa
BeautifulSoup
desdebs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Esta biblioteca está diseñada para trabajar con archivos HTML y no gestiona enlaces. Sin embargo, ya sabes cómo manejar eso usando urlopen de urllib.requests
. Para iniciar el análisis, es necesario proporcionar dos parámetros a la función BeautifulSoup
: el primero es el archivo HTML y el segundo es el analizador (utilizaremos el analizador incorporado html.parser
). Esta acción creará un objeto BeautifulSoup
. Por ejemplo, abramos y leamos una página web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
El primer método que exploraremos es .prettify()
, que presenta el archivo HTML como una estructura de datos anidada.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
¡Gracias por tus comentarios!