Kursinhalt
Web Scraping mit Python
Web Scraping mit Python
Öffnen der HTML-Datei
Du bist mit den grundlegenden Aspekten von HTML vertraut, lass uns die erste Methode erkunden, um damit in Python zu arbeiten.
Eines der Module, das du in Python verwenden kannst, um HTML-Dateien zu verarbeiten, ist urllib.request
. Du musst die import
-Anweisung verwenden, um die urlopen
Methode zu importieren, die du zum Zugriff auf Webseiten benötigst. Gib einfach die URL der Seite, die du öffnen möchtest, als Parameter an diese Methode.
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Wie im obigen Beispiel zu sehen, erhältst du als Ergebnis ein http.client.HTTPResponse
-Objekt, das sich von dem unterscheidet, was wir beabsichtigt hatten. Um die HTML-Struktur zu erhalten, solltest du die .read()
- und .decode("utf-8")
-Methoden auf das erhaltene Objekt anwenden.
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Als Ergebnis der Anwendung der Methoden .read()
und .decode()
erhältst du einen String. Dieser String enthält die HTML-Struktur in gut formatiertem Format, wodurch er leicht lesbar ist und es dir ermöglicht, String-Methoden darauf anzuwenden.
Wenn die Methode .decode()
nicht angewendet worden wäre, würdest du ein bytes-Objekt erhalten, in dem die gesamte HTML-Seite als ein einziger String mit spezifischen Zeichen dargestellt wird. Experimentiere gerne damit!
Danke für Ihr Feedback!