Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer HTML-bestand Openen | Kennismaken met HTML
Web Scraping met Python

bookHTML-bestand Openen

Nu je bekend bent met de fundamentele aspecten van HTML, bekijken we de eerste methode om hiermee te werken in Python.

Een van de modules die je kunt gebruiken om HTML-bestanden in Python te verwerken is urllib.request. Je moet de methode import urlopen om webpagina's te benaderen. Geef eenvoudigweg de URL van de pagina die je wilt openen als een parameter aan deze methode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Zoals te zien is in het bovenstaande voorbeeld, ontvang je een http.client.HTTPResponse-object als resultaat, wat verschilt van wat we beoogden. Om de HTML-structuur te verkrijgen, dien je de methoden .read() en .decode("utf-8") toe te passen op het verkregen object.

Note
Definitie

Het gedeelte decode("utf-8") wordt gebruikt om de ruwe binaire data om te zetten in een voor mensen leesbare tekenreeks, ervan uitgaande dat de inhoud van de webpagina is gecodeerd met UTF-8. Deze conversie stelt ons in staat om op een zinvolle manier met de tekstgegevens van de webpagina te werken, zoals het parseren of analyseren van de inhoud.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Als resultaat van het toepassen van de .read()- en .decode()-methoden, verkrijg je een string. Deze string bevat de HTML-structuur op een goed geformatteerde manier, waardoor deze gemakkelijk leesbaar is en je er tekenreeks-methoden op kunt toepassen.

Als de .decode()-methode niet zou worden toegepast, zou je een bytes-object ontvangen met de volledige HTML-pagina weergegeven als één enkele tekenreeks met specifieke tekens. Experimenteer er gerust mee!

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 8

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4.35

bookHTML-bestand Openen

Veeg om het menu te tonen

Nu je bekend bent met de fundamentele aspecten van HTML, bekijken we de eerste methode om hiermee te werken in Python.

Een van de modules die je kunt gebruiken om HTML-bestanden in Python te verwerken is urllib.request. Je moet de methode import urlopen om webpagina's te benaderen. Geef eenvoudigweg de URL van de pagina die je wilt openen als een parameter aan deze methode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Zoals te zien is in het bovenstaande voorbeeld, ontvang je een http.client.HTTPResponse-object als resultaat, wat verschilt van wat we beoogden. Om de HTML-structuur te verkrijgen, dien je de methoden .read() en .decode("utf-8") toe te passen op het verkregen object.

Note
Definitie

Het gedeelte decode("utf-8") wordt gebruikt om de ruwe binaire data om te zetten in een voor mensen leesbare tekenreeks, ervan uitgaande dat de inhoud van de webpagina is gecodeerd met UTF-8. Deze conversie stelt ons in staat om op een zinvolle manier met de tekstgegevens van de webpagina te werken, zoals het parseren of analyseren van de inhoud.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Als resultaat van het toepassen van de .read()- en .decode()-methoden, verkrijg je een string. Deze string bevat de HTML-structuur op een goed geformatteerde manier, waardoor deze gemakkelijk leesbaar is en je er tekenreeks-methoden op kunt toepassen.

Als de .decode()-methode niet zou worden toegepast, zou je een bytes-object ontvangen met de volledige HTML-pagina weergegeven als één enkele tekenreeks met specifieke tekens. Experimenteer er gerust mee!

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 8
some-alt