Atributos y Contenidos del Elemento
Los métodos discutidos en las secciones anteriores devuelven partes específicas del código HTML. BeautifulSoup
permite recuperar los atributos y contenidos de elementos particulares. Para acceder a los atributos de un objeto, utilice el atributo .attrs
. Por ejemplo, se pueden obtener los atributos del primer elemento <div>
.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Es importante señalar que el resultado de utilizar el atributo .attrs
es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Si se desea obtener el contenido almacenado dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, observe el contenido del primer elemento <div>
.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Como se observa arriba, todos los caracteres de nueva línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más deseable del contenido. Para extraer únicamente el texto dentro de un elemento específico, utilice el método .get_text()
. Compare los resultados del ejemplo a continuación con el obtenido anteriormente.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
What is the difference between .attrs, .contents, and .get_text() in BeautifulSoup?
Can you explain how to use .attrs to get specific attribute values?
How can I extract text from other HTML elements using BeautifulSoup?
Awesome!
Completion rate improved to 4.35
Atributos y Contenidos del Elemento
Desliza para mostrar el menú
Los métodos discutidos en las secciones anteriores devuelven partes específicas del código HTML. BeautifulSoup
permite recuperar los atributos y contenidos de elementos particulares. Para acceder a los atributos de un objeto, utilice el atributo .attrs
. Por ejemplo, se pueden obtener los atributos del primer elemento <div>
.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Es importante señalar que el resultado de utilizar el atributo .attrs
es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Si se desea obtener el contenido almacenado dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, observe el contenido del primer elemento <div>
.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Como se observa arriba, todos los caracteres de nueva línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más deseable del contenido. Para extraer únicamente el texto dentro de un elemento específico, utilice el método .get_text()
. Compare los resultados del ejemplo a continuación con el obtenido anteriormente.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
¡Gracias por tus comentarios!