Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Öffnen Einer HTML-Datei | Einführung in HTML
Web Scraping Mit Python

bookÖffnen Einer HTML-Datei

Nachdem Sie mit den grundlegenden Aspekten von HTML vertraut sind, betrachten wir die erste Methode, um damit in Python zu arbeiten.

Eines der Module, das Sie zur Verarbeitung von HTML-Dateien in Python verwenden können, ist urllib.request. Sie müssen die Methode import urlopen, um auf Webseiten zuzugreifen. Geben Sie einfach die URL der gewünschten Seite als Parameter an diese Methode weiter.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Wie im obigen Beispiel zu sehen ist, erhältst du als Ergebnis ein http.client.HTTPResponse-Objekt, das sich von dem unterscheidet, was beabsichtigt war. Um die HTML-Struktur zu erhalten, solltest du die Methoden .read() und .decode("utf-8") auf das erworbene Objekt anwenden.

Note
Definition

Der Teil decode("utf-8") wird verwendet, um die rohen Binärdaten in eine für Menschen lesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit UTF-8 kodiert ist. Diese Umwandlung ermöglicht es uns, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Durch die Anwendung der Methoden .read() und .decode() erhalten Sie eine Zeichenkette. Diese Zeichenkette enthält die HTML-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.

Ohne die Anwendung der Methode .decode() würden Sie ein bytes-Objekt erhalten, das die gesamte HTML-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probieren Sie es gerne aus!

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 8

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookÖffnen Einer HTML-Datei

Swipe um das Menü anzuzeigen

Nachdem Sie mit den grundlegenden Aspekten von HTML vertraut sind, betrachten wir die erste Methode, um damit in Python zu arbeiten.

Eines der Module, das Sie zur Verarbeitung von HTML-Dateien in Python verwenden können, ist urllib.request. Sie müssen die Methode import urlopen, um auf Webseiten zuzugreifen. Geben Sie einfach die URL der gewünschten Seite als Parameter an diese Methode weiter.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Wie im obigen Beispiel zu sehen ist, erhältst du als Ergebnis ein http.client.HTTPResponse-Objekt, das sich von dem unterscheidet, was beabsichtigt war. Um die HTML-Struktur zu erhalten, solltest du die Methoden .read() und .decode("utf-8") auf das erworbene Objekt anwenden.

Note
Definition

Der Teil decode("utf-8") wird verwendet, um die rohen Binärdaten in eine für Menschen lesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit UTF-8 kodiert ist. Diese Umwandlung ermöglicht es uns, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Durch die Anwendung der Methoden .read() und .decode() erhalten Sie eine Zeichenkette. Diese Zeichenkette enthält die HTML-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.

Ohne die Anwendung der Methode .decode() würden Sie ein bytes-Objekt erhalten, das die gesamte HTML-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probieren Sie es gerne aus!

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 8
some-alt