Kursinhalt
Web Scraping mit Python
Web Scraping mit Python
3. Arbeiten mit Elementattributen in Beautiful Soup
Navigieren im HTML-Dokument
Nachdem Sie das HTML-Dokument gelesen haben, können Sie es auf verschiedene Arten navigieren. Um tiefer einzutauchen, können Sie ein Tag wie ein Attribut angeben. Zum Beispiel betrachten wir das <head>
-Element und stellen es in einer 'strukturierten' Form dar (mittels der Methode .prettify()
).
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.head.prettify())
Experimentieren Sie ruhig, indem Sie beispielsweise das .head
-Attribut durch .body
ersetzen. Wie oben gezeigt, umfasst das <head>
-Element mehrere Kinder. Sie können alle Kinder der Elemente mit einer for
-Schleife und dem .children
-Attribut durchlaufen.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") # Iterating over all element children for child in soup.head.children: print(child)
War alles klar?
Danke für Ihr Feedback!
Abschnitt 2. Kapitel 2