Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Navigieren im HTML-Dokument | HTML mit Beautiful Soup Entschlüsseln
Web Scraping mit Python
course content

Kursinhalt

Web Scraping mit Python

Web Scraping mit Python

1. Kennenlernen von HTML
2. HTML mit Beautiful Soup Entschlüsseln
3. Arbeiten mit Elementattributen in Beautiful Soup

book
Navigieren im HTML-Dokument

Nachdem Sie das HTML-Dokument gelesen haben, können Sie es auf verschiedene Arten navigieren. Um tiefer einzutauchen, können Sie ein Tag wie ein Attribut angeben. Zum Beispiel betrachten wir das <head>-Element und stellen es in einer 'strukturierten' Form dar (mittels der Methode .prettify()).

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.head.prettify())
copy

Experimentieren Sie ruhig, indem Sie beispielsweise das .head-Attribut durch .body ersetzen. Wie oben gezeigt, umfasst das <head>-Element mehrere Kinder. Sie können alle Kinder der Elemente mit einer for-Schleife und dem .children-Attribut durchlaufen.

1234567891011121314
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") # Iterating over all element children for child in soup.head.children: print(child)
copy

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2
We're sorry to hear that something went wrong. What happened?
some-alt