Atributos y Contenidos del Elemento
Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utilice el atributo .attrs. Por ejemplo, recupere los atributos del primer elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
El resultado de utilizar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Para obtener el contenido dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, consulte el contenido del primer elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Como se observa arriba, todos los caracteres de salto de línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más adecuada del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, se debe utilizar el método .get_text(). Comparar los resultados del ejemplo a continuación con el obtenido anteriormente.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 4.35
Atributos y Contenidos del Elemento
Desliza para mostrar el menú
Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utilice el atributo .attrs. Por ejemplo, recupere los atributos del primer elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
El resultado de utilizar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Para obtener el contenido dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, consulte el contenido del primer elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Como se observa arriba, todos los caracteres de salto de línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más adecuada del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, se debe utilizar el método .get_text(). Comparar los resultados del ejemplo a continuación con el obtenido anteriormente.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
¡Gracias por tus comentarios!