Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was ist Beautiful Soup? | HTML-Entschlüsselung mit Beautiful Soup
Web Scraping Mit Python

bookWas ist Beautiful Soup?

BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt wurde mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.

Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl im Terminal oder in der Eingabeaufforderung aus:

  • pip install beautifulsoup4;
  • Zum Einstieg importieren Sie BeautifulSoup aus bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Allerdings wissen Sie bereits, wie Sie damit umgehen, indem Sie urlopen aus urllib.requests verwenden. Um das Parsen zu starten, müssen Sie der Funktion BeautifulSoup zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite ist der Parser (wir verwenden den integrierten Parser html.parser). Diese Aktion erstellt ein BeautifulSoup-Objekt. Zum Beispiel öffnen und lesen wir eine Webseite.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Die erste Methode, die wir untersuchen, ist .prettify(), welche die HTML-Datei als verschachtelte Datenstruktur darstellt.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What is the purpose of specifying "html.parser" as the parser?

Awesome!

Completion rate improved to 4.35

bookWas ist Beautiful Soup?

Swipe um das Menü anzuzeigen

BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt wurde mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.

Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl im Terminal oder in der Eingabeaufforderung aus:

  • pip install beautifulsoup4;
  • Zum Einstieg importieren Sie BeautifulSoup aus bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Allerdings wissen Sie bereits, wie Sie damit umgehen, indem Sie urlopen aus urllib.requests verwenden. Um das Parsen zu starten, müssen Sie der Funktion BeautifulSoup zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite ist der Parser (wir verwenden den integrierten Parser html.parser). Diese Aktion erstellt ein BeautifulSoup-Objekt. Zum Beispiel öffnen und lesen wir eine Webseite.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Die erste Methode, die wir untersuchen, ist .prettify(), welche die HTML-Datei als verschachtelte Datenstruktur darstellt.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
some-alt