Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Wat is Beautiful Soup? | Decoderen van HTML met Beautiful Soup
Web Scraping met Python

bookWat is Beautiful Soup?

BeautifulSoup is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte u met HTML als een string, wat aanzienlijke beperkingen oplegde.

Om BeautifulSoup te installeren, voert u het volgende commando uit in uw terminal of opdrachtprompt:

  • pip install beautifulsoup4;
  • Om te beginnen, importeer BeautifulSoup uit bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Je weet echter al hoe je hiermee omgaat met urlopen uit urllib.requests. Om het parsen te starten, moeten er twee parameters aan de functie BeautifulSoup worden meegegeven: de eerste is het HTML-bestand en de tweede is de parser (wij gebruiken de ingebouwde parser html.parser). Deze handeling creëert een BeautifulSoup-object. Bijvoorbeeld, laten we een webpagina openen en lezen.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

De eerste methode die we zullen behandelen is .prettify(), waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 4.35

bookWat is Beautiful Soup?

Veeg om het menu te tonen

BeautifulSoup is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte u met HTML als een string, wat aanzienlijke beperkingen oplegde.

Om BeautifulSoup te installeren, voert u het volgende commando uit in uw terminal of opdrachtprompt:

  • pip install beautifulsoup4;
  • Om te beginnen, importeer BeautifulSoup uit bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Je weet echter al hoe je hiermee omgaat met urlopen uit urllib.requests. Om het parsen te starten, moeten er twee parameters aan de functie BeautifulSoup worden meegegeven: de eerste is het HTML-bestand en de tweede is de parser (wij gebruiken de ingebouwde parser html.parser). Deze handeling creëert een BeautifulSoup-object. Bijvoorbeeld, laten we een webpagina openen en lezen.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

De eerste methode die we zullen behandelen is .prettify(), waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1
some-alt