Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Atributos y Contenidos del Elemento | Trabajando con Atributos de Elementos en Beautiful Soup
Quizzes & Challenges
Quizzes
Challenges
/
Web Scraping con Python

bookAtributos y Contenidos del Elemento

Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utilice el atributo .attrs. Por ejemplo, recupere los atributos del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

El resultado de utilizar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Para obtener el contenido dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, consulte el contenido del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Como se observa arriba, todos los caracteres de salto de línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más adecuada del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, se debe utilizar el método .get_text(). Comparar los resultados del ejemplo a continuación con el obtenido anteriormente.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

bookAtributos y Contenidos del Elemento

Desliza para mostrar el menú

Los métodos tratados anteriormente devuelven partes específicas del código HTML. BeautifulSoup también permite acceder a los atributos y contenidos de elementos particulares. Para obtener los atributos de un elemento, utilice el atributo .attrs. Por ejemplo, recupere los atributos del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

El resultado de utilizar el atributo .attrs es un diccionario donde las claves son los nombres de los atributos y los valores son sus respectivos valores. Para obtener el contenido dentro de una etiqueta, utilice el atributo .contents. Por ejemplo, consulte el contenido del primer elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Como se observa arriba, todos los caracteres de salto de línea se incluyeron en una lista de elementos, lo cual puede no ser la representación más adecuada del contenido. Si se desea extraer únicamente el texto dentro de un elemento específico, se debe utilizar el método .get_text(). Comparar los resultados del ejemplo a continuación con el obtenido anteriormente.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 3. Capítulo 1
some-alt