Attribute und Inhalte von Elementen
Die in den vorherigen Abschnitten besprochenen Methoden geben bestimmte Teile des HTML-Codes zurück. BeautifulSoup
ermöglicht das Abrufen der Attribute und Inhalte bestimmter Elemente. Um auf die Attribute eines Objekts zuzugreifen, wird das Attribut .attrs
verwendet. Zum Beispiel können die Attribute des ersten <div>
-Elements abgerufen werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Es ist zu beachten, dass das Ergebnis der Verwendung des .attrs
-Attributs ein Wörterbuch ist, bei dem die Schlüssel die Attributnamen und die Werte deren jeweilige Werte sind. Um den innerhalb eines Tags gespeicherten Inhalt zu erhalten, wird das Attribut .contents verwendet. Beispielsweise kann der Inhalt des ersten <div>
-Elements betrachtet werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Wie oben zu sehen ist, wurden alle Zeilenumbrüche in eine Liste von Elementen aufgenommen, was möglicherweise nicht die gewünschte Darstellung des Inhalts ist. Um nur den Text innerhalb eines bestimmten Elements zu extrahieren, kann die Methode .get_text()
verwendet werden. Vergleiche die Ergebnisse des folgenden Beispiels mit dem zuvor erhaltenen Ergebnis.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What is the difference between .attrs, .contents, and .get_text() in BeautifulSoup?
Can you explain how to use .attrs to get specific attribute values?
How can I extract text from other HTML elements using BeautifulSoup?
Awesome!
Completion rate improved to 4.35
Attribute und Inhalte von Elementen
Swipe um das Menü anzuzeigen
Die in den vorherigen Abschnitten besprochenen Methoden geben bestimmte Teile des HTML-Codes zurück. BeautifulSoup
ermöglicht das Abrufen der Attribute und Inhalte bestimmter Elemente. Um auf die Attribute eines Objekts zuzugreifen, wird das Attribut .attrs
verwendet. Zum Beispiel können die Attribute des ersten <div>
-Elements abgerufen werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Es ist zu beachten, dass das Ergebnis der Verwendung des .attrs
-Attributs ein Wörterbuch ist, bei dem die Schlüssel die Attributnamen und die Werte deren jeweilige Werte sind. Um den innerhalb eines Tags gespeicherten Inhalt zu erhalten, wird das Attribut .contents verwendet. Beispielsweise kann der Inhalt des ersten <div>
-Elements betrachtet werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Wie oben zu sehen ist, wurden alle Zeilenumbrüche in eine Liste von Elementen aufgenommen, was möglicherweise nicht die gewünschte Darstellung des Inhalts ist. Um nur den Text innerhalb eines bestimmten Elements zu extrahieren, kann die Methode .get_text()
verwendet werden. Vergleiche die Ergebnisse des folgenden Beispiels mit dem zuvor erhaltenen Ergebnis.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
Danke für Ihr Feedback!