Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Attribute und Inhalte von Elementen | Arbeiten mit Elementattributen in Beautiful Soup
Web Scraping Mit Python

bookAttribute und Inhalte von Elementen

Die zuvor behandelten Methoden geben bestimmte Teile des HTML-Codes zurück. BeautifulSoup ermöglicht es außerdem, auf die Attribute und Inhalte bestimmter Elemente zuzugreifen. Um die Attribute eines Elements abzurufen, verwenden Sie das Attribut .attrs. Zum Beispiel können Sie die Attribute des ersten <div>-Elements abrufen.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

Das Ergebnis der Verwendung des Attributs .attrs ist ein Dictionary, bei dem die Schlüssel die Attributnamen und die Werte deren entsprechende Werte sind. Um den Inhalt innerhalb eines Tags zu erhalten, verwenden Sie das Attribut .contents. Überprüfen Sie beispielsweise den Inhalt des ersten <div>-Elements.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Wie oben zu erkennen ist, wurden alle Zeilenumbrüche in eine Liste von Elementen aufgenommen, was möglicherweise nicht die wünschenswerteste Darstellung des Inhalts ist. Um nur den Text innerhalb eines bestimmten Elements zu extrahieren, verwenden Sie die Methode .get_text(). Vergleichen Sie die Ergebnisse des folgenden Beispiels mit dem zuvor erhaltenen Ergebnis.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.35

bookAttribute und Inhalte von Elementen

Swipe um das Menü anzuzeigen

Die zuvor behandelten Methoden geben bestimmte Teile des HTML-Codes zurück. BeautifulSoup ermöglicht es außerdem, auf die Attribute und Inhalte bestimmter Elemente zuzugreifen. Um die Attribute eines Elements abzurufen, verwenden Sie das Attribut .attrs. Zum Beispiel können Sie die Attribute des ersten <div>-Elements abrufen.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

Das Ergebnis der Verwendung des Attributs .attrs ist ein Dictionary, bei dem die Schlüssel die Attributnamen und die Werte deren entsprechende Werte sind. Um den Inhalt innerhalb eines Tags zu erhalten, verwenden Sie das Attribut .contents. Überprüfen Sie beispielsweise den Inhalt des ersten <div>-Elements.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Wie oben zu erkennen ist, wurden alle Zeilenumbrüche in eine Liste von Elementen aufgenommen, was möglicherweise nicht die wünschenswerteste Darstellung des Inhalts ist. Um nur den Text innerhalb eines bestimmten Elements zu extrahieren, verwenden Sie die Methode .get_text(). Vergleichen Sie die Ergebnisse des folgenden Beispiels mit dem zuvor erhaltenen Ergebnis.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 1
some-alt