Wat is Beautiful Soup?
Veeg om het menu te tonen
BeautifulSoup is een Python-bibliotheek die uitgebreide functionaliteit biedt voor het parseren van HTML-pagina's. In de vorige sectie werkte u met HTML als een string, wat aanzienlijke beperkingen opleverde.
Om BeautifulSoup te installeren, voert u het volgende commando uit in uw terminal of opdrachtprompt:
pip install beautifulsoup4;- Om te beginnen, importeer
BeautifulSoupuitbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Deze bibliotheek is ontworpen voor het werken met HTML-bestanden en verwerkt geen links. Dit kan echter worden beheerd met urlopen uit urllib.request. Om te beginnen met parseren, geef twee parameters aan de functie BeautifulSoup: het HTML-bestand en de parser (gebruik de ingebouwde html.parser). Dit creëert een BeautifulSoup-object. Bijvoorbeeld, open en lees een webpagina.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
De eerste methode om te verkennen is .prettify(), waarmee het HTML-bestand als een geneste datastructuur wordt weergegeven.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.