Attribute und Inhalte von Elementen
Die zuvor behandelten Methoden geben bestimmte Teile des HTML-Codes zurück. BeautifulSoup ermöglicht zudem den Zugriff auf die Attribute und Inhalte einzelner Elemente. Um die Attribute eines Elements abzurufen, wird das Attribut .attrs verwendet. Beispielsweise können die Attribute des ersten <div>-Elements abgerufen werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Das Ergebnis der Verwendung des .attrs-Attributs ist ein Dictionary, bei dem die Schlüssel die Attributnamen und die Werte die entsprechenden Attributwerte sind. Um den Inhalt innerhalb eines Tags zu erhalten, wird das Attribut .contents verwendet. Beispielsweise können die Inhalte des ersten <div>-Elements überprüft werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Wie oben zu erkennen ist, wurden alle Zeilenumbrüche in eine Liste von Elementen aufgenommen, was möglicherweise keine optimale Darstellung des Inhalts darstellt. Um ausschließlich den Text innerhalb eines bestimmten Elements zu extrahieren, kann die Methode .get_text() verwendet werden. Vergleiche die Ergebnisse des folgenden Beispiels mit dem zuvor erhaltenen Ergebnis.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What is the difference between `.attrs`, `.contents`, and `.get_text()` in BeautifulSoup?
Can you explain why `.get_text()` is preferred for extracting text content?
How can I extract attributes and text from other HTML elements, not just `<div>`?
Awesome!
Completion rate improved to 4.35
Attribute und Inhalte von Elementen
Swipe um das Menü anzuzeigen
Die zuvor behandelten Methoden geben bestimmte Teile des HTML-Codes zurück. BeautifulSoup ermöglicht zudem den Zugriff auf die Attribute und Inhalte einzelner Elemente. Um die Attribute eines Elements abzurufen, wird das Attribut .attrs verwendet. Beispielsweise können die Attribute des ersten <div>-Elements abgerufen werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Das Ergebnis der Verwendung des .attrs-Attributs ist ein Dictionary, bei dem die Schlüssel die Attributnamen und die Werte die entsprechenden Attributwerte sind. Um den Inhalt innerhalb eines Tags zu erhalten, wird das Attribut .contents verwendet. Beispielsweise können die Inhalte des ersten <div>-Elements überprüft werden.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Wie oben zu erkennen ist, wurden alle Zeilenumbrüche in eine Liste von Elementen aufgenommen, was möglicherweise keine optimale Darstellung des Inhalts darstellt. Um ausschließlich den Text innerhalb eines bestimmten Elements zu extrahieren, kann die Methode .get_text() verwendet werden. Vergleiche die Ergebnisse des folgenden Beispiels mit dem zuvor erhaltenen Ergebnis.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
Danke für Ihr Feedback!