Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hva er Beautiful Soup? | Decoding HTML med Beautiful Soup
Webskraping med Python

bookHva er Beautiful Soup?

BeautifulSoup er et Python-bibliotek som tilbyr omfattende funksjonalitet for parsing av HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.

For å installere BeautifulSoup, kjør følgende kommando i terminalen eller ledeteksten:

  • pip install beautifulsoup4;
  • For å komme i gang, importer BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Du vet imidlertid allerede hvordan du håndterer dette ved å bruke urlopen fra urllib.requests. For å starte parsing må du oppgi to parametere til funksjonen BeautifulSoup: den første er HTML-filen, og den andre er parseren (vi bruker den innebygde parseren html.parser). Denne handlingen vil opprette et BeautifulSoup-objekt. For eksempel, la oss åpne og lese en nettside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metoden vi skal utforske er .prettify(), som presenterer HTML-filen som en nestet datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What is the purpose of specifying "html.parser" as the parser?

Awesome!

Completion rate improved to 4.35

bookHva er Beautiful Soup?

Sveip for å vise menyen

BeautifulSoup er et Python-bibliotek som tilbyr omfattende funksjonalitet for parsing av HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.

For å installere BeautifulSoup, kjør følgende kommando i terminalen eller ledeteksten:

  • pip install beautifulsoup4;
  • For å komme i gang, importer BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Du vet imidlertid allerede hvordan du håndterer dette ved å bruke urlopen fra urllib.requests. For å starte parsing må du oppgi to parametere til funksjonen BeautifulSoup: den første er HTML-filen, og den andre er parseren (vi bruker den innebygde parseren html.parser). Denne handlingen vil opprette et BeautifulSoup-objekt. For eksempel, la oss åpne og lese en nettside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metoden vi skal utforske er .prettify(), som presenterer HTML-filen som en nestet datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1
some-alt