Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Sie sind bereits mit den Grundlagen von **HTML** vertraut, daher lernen Sie nun die erste Methode kennen, um damit in **Python** zu arbeiten.


Eines der Module, das Sie zur Verarbeitung von __HTML__-Dateien in __Python__ verwenden können, ist `urllib.request`. Sie müssen die __Methode__ `import` `urlopen`, um auf Webseiten zuzugreifen. Geben Sie einfach die __URL__ der gewünschten Seite als __Parameter__ an diese __Methode__ weiter.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Wie im obigen Beispiel gezeigt, ist das Ergebnis ein `http.client.HTTPResponse`-Objekt, was jedoch nicht die gewünschte Ausgabe ist. Um die **HTML**-Struktur zu erhalten, wenden Sie die Methoden `.read()` und `.decode('utf-8')` auf das erhaltene Objekt an.


Der Teil `decode("utf-8")` wird verwendet, um die rohen Binärdaten in eine für Menschen lesbare Zeichenkette umzuwandeln, vorausgesetzt, dass der Inhalt der Webseite mit **UTF-8** codiert ist. Diese Umwandlung ermöglicht es, mit den Textdaten der Webseite sinnvoll zu arbeiten, beispielsweise um deren Inhalt zu parsen oder zu analysieren.

Definition

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Durch die Anwendung der Methoden `.read()` und `.decode()` erhältst du eine Zeichenkette. Diese Zeichenkette enthält die __HTML__-Struktur in gut lesbarer Form, was die Lesbarkeit erleichtert und die Anwendung von Zeichenkettenmethoden ermöglicht.

Ohne die Anwendung der Methode `.decode()` würdest du ein __bytes__-Objekt erhalten, das die gesamte __HTML__-Seite als eine einzige Zeichenkette mit speziellen Zeichen darstellt. Probiere es gerne aus!

Erlernen Sie das automatische Extrahieren wertvoller Daten von Websites. Beherrschen Sie Techniken zur effizienten Informationsgewinnung, um fundierte Analysen durchzuführen, datenbasierte Entscheidungen zu treffen und neue Erkenntnisse aus der Fülle an Online-Informationen zu gewinnen.

Untersuchung der Struktur einer HTML-Datei, effizientes Laden sowie Erwerb praktischer Fähigkeiten im Umgang mit den enthaltenen Daten.

Grundlagen von Beautiful Soup zur Extraktion von Daten aus HTML-Dokumenten. Struktur von HTML analysieren, gezielte Elemente ansprechen und mit deren Kindelementen arbeiten, um eine solide Basis im Web Scraping zu schaffen.

Beherrschen Sie den Umgang mit Elementattributen und -inhalten unter Verwendung von Beautiful Soup. Erwerben Sie die Fähigkeiten, spezifische Informationen zu extrahieren, Elemente anhand von Attributwerten zu suchen und fortgeschrittene Techniken zur effizienten Analyse und Auswertung von HTML-Daten anzuwenden.

Öffnen Einer HTML-Datei