Hva er Beautiful Soup?
BeautifulSoup
er et Python-bibliotek som tilbyr omfattende funksjonalitet for parsing av HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.
For å installere BeautifulSoup
, kjør følgende kommando i terminalen eller ledeteksten:
pip install beautifulsoup4
;- For å komme i gang, importer
BeautifulSoup
frabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Du vet imidlertid allerede hvordan du håndterer dette ved å bruke urlopen fra urllib.requests
. For å starte parsing må du oppgi to parametere til funksjonen BeautifulSoup
: den første er HTML-filen, og den andre er parseren (vi bruker den innebygde parseren html.parser
). Denne handlingen vil opprette et BeautifulSoup
-objekt. For eksempel, la oss åpne og lese en nettside.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den første metoden vi skal utforske er .prettify()
, som presenterer HTML-filen som en nestet datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What is the purpose of specifying "html.parser" as the parser?
Awesome!
Completion rate improved to 4.35
Hva er Beautiful Soup?
Sveip for å vise menyen
BeautifulSoup
er et Python-bibliotek som tilbyr omfattende funksjonalitet for parsing av HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.
For å installere BeautifulSoup
, kjør følgende kommando i terminalen eller ledeteksten:
pip install beautifulsoup4
;- For å komme i gang, importer
BeautifulSoup
frabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Du vet imidlertid allerede hvordan du håndterer dette ved å bruke urlopen fra urllib.requests
. For å starte parsing må du oppgi to parametere til funksjonen BeautifulSoup
: den første er HTML-filen, og den andre er parseren (vi bruker den innebygde parseren html.parser
). Denne handlingen vil opprette et BeautifulSoup
-objekt. For eksempel, la oss åpne og lese en nettside.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den første metoden vi skal utforske er .prettify()
, som presenterer HTML-filen som en nestet datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Takk for tilbakemeldingene dine!