Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Je bent al bekend met de basis van **HTML**, dus verken nu de eerste methode om hiermee te werken in **Python**.


Een van de modules die je kunt gebruiken om __HTML__-bestanden te verwerken in __Python__ is `urllib.request`. Je moet de __methode__ `import` `urlopen` om webpagina's te openen. Geef eenvoudigweg de __URL__ van de pagina die je wilt openen als een __parameter__ aan deze __methode__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Zoals getoond in het bovenstaande voorbeeld, is het resultaat een `http.client.HTTPResponse`-object, wat niet de gewenste uitvoer is. Om de **HTML**-structuur te verkrijgen, past u de methoden `.read()` en `.decode('utf-8')` toe op het ontvangen object.


Het gedeelte `decode("utf-8")` wordt gebruikt om de ruwe binaire data om te zetten naar een leesbare tekenreeks, ervan uitgaande dat de inhoud van de webpagina is gecodeerd met **UTF-8**. Deze conversie stelt ons in staat om op een zinvolle manier met de tekstgegevens van de webpagina te werken, zoals het parseren of analyseren van de inhoud.

Definitie

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Als resultaat van het toepassen van de `.read()`- en `.decode()`-methoden, verkrijg je een string. Deze string bevat de __HTML__-structuur op een goed geformatteerde manier, waardoor deze gemakkelijk leesbaar is en je er stringmethoden op kunt toepassen.

Als de `.decode()`-methode niet zou worden toegepast, zou je een __bytes__-object ontvangen met de volledige __HTML__-pagina weergegeven als één enkele string met specifieke tekens. Experimenteer er gerust mee!

Leer waardevolle gegevens automatisch van websites te extraheren. Beheers technieken om efficiënt informatie te verzamelen, waardoor diepgaande analyses, datagedreven besluitvorming en het ontsluiten van nieuwe inzichten uit de enorme hoeveelheid online informatie mogelijk worden.

Ontdek de structuur van een HTML-bestand, leer hoe u het efficiënt kunt laden en verkrijg praktische vaardigheden in het werken met de gegevens die het bevat.

Verken de basisprincipes van Beautiful Soup voor het extraheren van gegevens uit HTML-documenten. Leer hoe u de structuur van HTML navigeert, specifieke elementen benadert en werkt met hun kindelementen om een solide basis te leggen in webscraping.

Beheers het werken met elementattributen en inhoud met Beautiful Soup. Ontwikkel vaardigheden om specifieke informatie te extraheren, elementen te zoeken op attribuutwaarden en geavanceerde technieken toe te passen voor het efficiënt parseren en analyseren van HTML-data.

HTML-Bestand Openen