Was ist Beautiful Soup?
BeautifulSoup
ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt wurde mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.
Um BeautifulSoup
zu installieren, führen Sie den folgenden Befehl im Terminal oder in der Eingabeaufforderung aus:
pip install beautifulsoup4
;- Zum Einstieg importieren Sie
BeautifulSoup
ausbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Allerdings wissen Sie bereits, wie Sie damit umgehen, indem Sie urlopen aus urllib.requests
verwenden. Um das Parsen zu starten, müssen Sie der Funktion BeautifulSoup
zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite ist der Parser (wir verwenden den integrierten Parser html.parser
). Diese Aktion erstellt ein BeautifulSoup
-Objekt. Zum Beispiel öffnen und lesen wir eine Webseite.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Die erste Methode, die wir untersuchen, ist .prettify()
, welche die HTML-Datei als verschachtelte Datenstruktur darstellt.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What is the purpose of specifying "html.parser" as the parser?
Awesome!
Completion rate improved to 4.35
Was ist Beautiful Soup?
Swipe um das Menü anzuzeigen
BeautifulSoup
ist eine Python-Bibliothek, die umfangreiche Funktionen zum Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt wurde mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.
Um BeautifulSoup
zu installieren, führen Sie den folgenden Befehl im Terminal oder in der Eingabeaufforderung aus:
pip install beautifulsoup4
;- Zum Einstieg importieren Sie
BeautifulSoup
ausbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Allerdings wissen Sie bereits, wie Sie damit umgehen, indem Sie urlopen aus urllib.requests
verwenden. Um das Parsen zu starten, müssen Sie der Funktion BeautifulSoup
zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite ist der Parser (wir verwenden den integrierten Parser html.parser
). Diese Aktion erstellt ein BeautifulSoup
-Objekt. Zum Beispiel öffnen und lesen wir eine Webseite.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Die erste Methode, die wir untersuchen, ist .prettify()
, welche die HTML-Datei als verschachtelte Datenstruktur darstellt.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Danke für Ihr Feedback!