Öffnen Einer HTML-Datei
Nachdem Sie mit den grundlegenden Aspekten von HTML vertraut sind, betrachten wir die erste Methode, um damit in Python zu arbeiten.
Eines der Module, das Sie zur Verarbeitung von HTML-Dateien in Python verwenden können, ist urllib.request
. Sie müssen die Methode import
urlopen
, um auf Webseiten zuzugreifen. Geben Sie einfach die URL der gewünschten Seite als Parameter an diese Methode weiter.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Wie im obigen Beispiel zu sehen ist, erhältst du als Ergebnis ein http.client.HTTPResponse
-Objekt, das sich von dem unterscheidet, was beabsichtigt war. Um die HTML-Struktur zu erhalten, solltest du die Methoden .read()
und .decode("utf-8")
auf das erworbene Objekt anwenden.
Der Teil decode("utf-8")
wird verwendet, um die rohen Binärdaten in eine für Menschen lesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit UTF-8 kodiert ist. Diese Umwandlung ermöglicht es uns, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Durch die Anwendung der Methoden .read()
und .decode()
erhalten Sie eine Zeichenkette. Diese Zeichenkette enthält die HTML-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.
Ohne die Anwendung der Methode .decode()
würden Sie ein bytes-Objekt erhalten, das die gesamte HTML-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probieren Sie es gerne aus!
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
What happens if I don't use the .decode() method?
Can you explain the difference between bytes and string in this context?
How can I extract specific information from the HTML string?
Awesome!
Completion rate improved to 4.35
Öffnen Einer HTML-Datei
Swipe um das Menü anzuzeigen
Nachdem Sie mit den grundlegenden Aspekten von HTML vertraut sind, betrachten wir die erste Methode, um damit in Python zu arbeiten.
Eines der Module, das Sie zur Verarbeitung von HTML-Dateien in Python verwenden können, ist urllib.request
. Sie müssen die Methode import
urlopen
, um auf Webseiten zuzugreifen. Geben Sie einfach die URL der gewünschten Seite als Parameter an diese Methode weiter.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Wie im obigen Beispiel zu sehen ist, erhältst du als Ergebnis ein http.client.HTTPResponse
-Objekt, das sich von dem unterscheidet, was beabsichtigt war. Um die HTML-Struktur zu erhalten, solltest du die Methoden .read()
und .decode("utf-8")
auf das erworbene Objekt anwenden.
Der Teil decode("utf-8")
wird verwendet, um die rohen Binärdaten in eine für Menschen lesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit UTF-8 kodiert ist. Diese Umwandlung ermöglicht es uns, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Durch die Anwendung der Methoden .read()
und .decode()
erhalten Sie eine Zeichenkette. Diese Zeichenkette enthält die HTML-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.
Ohne die Anwendung der Methode .decode()
würden Sie ein bytes-Objekt erhalten, das die gesamte HTML-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probieren Sie es gerne aus!
Danke für Ihr Feedback!