Hvad er Beautiful Soup?
Stryg for at vise menuen
BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at parse HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.
For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4;- For at komme i gang skal du importere
BeautifulSoupfrabs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere det ved at bruge urlopen fra urllib.request. For at begynde at analysere, angiv to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den første metode, der skal udforskes, er .prettify(), som viser HTML-filen som en indlejret datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat