Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was Ist Beautiful Soup? | HTML mit Beautiful Soup Entschlüsseln
Web Scraping mit Python
course content

Kursinhalt

Web Scraping mit Python

Web Scraping mit Python

1. Kennenlernen von HTML
2. HTML mit Beautiful Soup Entschlüsseln
3. Arbeiten mit Elementattributen in Beautiful Soup

book
Was Ist Beautiful Soup?

BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionalität für das Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.

Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder in der Eingabeaufforderung aus:

  • pip install beautifulsoup4;
  • Zum Einstieg importieren Sie BeautifulSoup aus bs4: from bs4 import BeautifulSoup.
123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie wissen jedoch bereits, wie Sie mit urlopen aus urllib.requests umgehen. Um das Parsen zu starten, müssen Sie der BeautifulSoup-Funktion zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite der Parser (wir werden den eingebauten html.parser verwenden). Diese Aktion erstellt ein BeautifulSoup Objekt. Zum Beispiel, öffnen und lesen wir eine Webseite.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Die erste Methode, die wir untersuchen werden, ist .prettify(), welche die HTML-Datei als verschachtelte Datenstruktur präsentiert.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
We're sorry to hear that something went wrong. What happened?
some-alt