Wat is Beautiful Soup?
BeautifulSoup
is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte u met HTML als een string, wat aanzienlijke beperkingen oplegde.
Om BeautifulSoup
te installeren, voert u het volgende commando uit in uw terminal of opdrachtprompt:
pip install beautifulsoup4
;- Om te beginnen, importeer
BeautifulSoup
uitbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Je weet echter al hoe je hiermee omgaat met urlopen uit urllib.requests
. Om het parsen te starten, moeten er twee parameters aan de functie BeautifulSoup
worden meegegeven: de eerste is het HTML-bestand en de tweede is de parser (wij gebruiken de ingebouwde parser html.parser
). Deze handeling creëert een BeautifulSoup
-object. Bijvoorbeeld, laten we een webpagina openen en lezen.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
De eerste methode die we zullen behandelen is .prettify()
, waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 4.35
Wat is Beautiful Soup?
Veeg om het menu te tonen
BeautifulSoup
is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte u met HTML als een string, wat aanzienlijke beperkingen oplegde.
Om BeautifulSoup
te installeren, voert u het volgende commando uit in uw terminal of opdrachtprompt:
pip install beautifulsoup4
;- Om te beginnen, importeer
BeautifulSoup
uitbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Je weet echter al hoe je hiermee omgaat met urlopen uit urllib.requests
. Om het parsen te starten, moeten er twee parameters aan de functie BeautifulSoup
worden meegegeven: de eerste is het HTML-bestand en de tweede is de parser (wij gebruiken de ingebouwde parser html.parser
). Deze handeling creëert een BeautifulSoup
-object. Bijvoorbeeld, laten we een webpagina openen en lezen.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
De eerste methode die we zullen behandelen is .prettify()
, waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Bedankt voor je feedback!