Kursinhalt
Web Scraping mit Python
Web Scraping mit Python
Was Ist Beautiful Soup?
BeautifulSoup ist eine Python-Bibliothek, die umfangreiche Funktionalität für das Parsen von HTML-Seiten bietet. Im vorherigen Abschnitt haben Sie mit HTML als Zeichenkette gearbeitet, was erhebliche Einschränkungen mit sich brachte.
Um BeautifulSoup zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal oder in der Eingabeaufforderung aus:
pip install beautifulsoup4
;- Zum Einstieg importieren Sie BeautifulSoup aus bs4:
from bs4 import BeautifulSoup
.
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Diese Bibliothek ist für die Arbeit mit HTML-Dateien konzipiert und verarbeitet keine Links. Sie wissen jedoch bereits, wie Sie mit urlopen aus urllib.requests
umgehen. Um das Parsen zu starten, müssen Sie der BeautifulSoup-Funktion zwei Parameter übergeben: Der erste ist die HTML-Datei und der zweite der Parser (wir werden den eingebauten html.parser
verwenden). Diese Aktion erstellt ein BeautifulSoup Objekt. Zum Beispiel, öffnen und lesen wir eine Webseite.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Die erste Methode, die wir untersuchen werden, ist .prettify()
, welche die HTML-Datei als verschachtelte Datenstruktur präsentiert.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Danke für Ihr Feedback!