Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was Ist Beautiful Soup? | HTML mit Beautiful Soup Entschlüsseln
Web Scraping mit Python

book
Was Ist Beautiful Soup?

BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionalität für das Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.

Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder in der Eingabeaufforderung aus:

  • pip install beautifulsoup4;

  • Zum Einstieg importieren Sie BeautifulSoup aus bs4: from bs4 import BeautifulSoup.

# Importing the library
from bs4 import BeautifulSoup
print(BeautifulSoup)
123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie wissen jedoch bereits, wie Sie mit urlopen aus urllib.requests umgehen. Um das Parsen zu starten, müssen Sie der BeautifulSoup-Funktion zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite der Parser (wir werden den eingebauten html.parser verwenden). Diese Aktion erstellt ein BeautifulSoup Objekt. Zum Beispiel, öffnen und lesen wir eine Webseite.

# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(type(soup))
print(soup)
12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Die erste Methode, die wir untersuchen werden, ist .prettify(), welche die HTML-Datei als verschachtelte Datenstruktur präsentiert.

# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())
123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand
ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

some-alt