Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Öffnen der HTML-Datei | Kennenlernen von HTML
Web Scraping mit Python
course content

Kursinhalt

Web Scraping mit Python

Web Scraping mit Python

1. Kennenlernen von HTML
2. HTML mit Beautiful Soup Entschlüsseln
3. Arbeiten mit Elementattributen in Beautiful Soup

book
Öffnen der HTML-Datei

Du bist mit den grundlegenden Aspekten von HTML vertraut, lass uns die erste Methode erkunden, um damit in Python zu arbeiten.

Eines der Module, das du in Python verwenden kannst, um HTML-Dateien zu verarbeiten, ist urllib.request. Du musst die import-Anweisung verwenden, um die urlopen Methode zu importieren, die du zum Zugriff auf Webseiten benötigst. Gib einfach die URL der Seite, die du öffnen möchtest, als Parameter an diese Methode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Wie im obigen Beispiel zu sehen, erhältst du als Ergebnis ein http.client.HTTPResponse-Objekt, das sich von dem unterscheidet, was wir beabsichtigt hatten. Um die HTML-Struktur zu erhalten, solltest du die .read()- und .decode("utf-8")-Methoden auf das erhaltene Objekt anwenden.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Als Ergebnis der Anwendung der Methoden .read() und .decode() erhältst du einen String. Dieser String enthält die HTML-Struktur in gut formatiertem Format, wodurch er leicht lesbar ist und es dir ermöglicht, String-Methoden darauf anzuwenden.

Wenn die Methode .decode() nicht angewendet worden wäre, würdest du ein bytes-Objekt erhalten, in dem die gesamte HTML-Seite als ein einziger String mit spezifischen Zeichen dargestellt wird. Experimentiere gerne damit!

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 8
We're sorry to hear that something went wrong. What happened?
some-alt