Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hva er Beautiful Soup? | Dekoding HTML med Beautiful Soup
Webskraping med Python

bookHva er Beautiful Soup?

BeautifulSoup er et python-bibliotek som tilbyr omfattende funksjonalitet for parsing av HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.

For å installere BeautifulSoup, kjør følgende kommando i terminalen eller ledeteksten:

  • pip install beautifulsoup4;
  • For å komme i gang, importer BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Dette kan imidlertid administreres ved å bruke urlopen fra urllib.request. For å starte parsing, oppgi to parametere til BeautifulSoup-funksjonen: HTML-filen og parseren (bruk den innebygde html.parser). Dette oppretter et BeautifulSoup-objekt. For eksempel, åpne og les en nettside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metoden som bør utforskes er .prettify(), som viser HTML-filen som en nestet datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 4.35

bookHva er Beautiful Soup?

Sveip for å vise menyen

BeautifulSoup er et python-bibliotek som tilbyr omfattende funksjonalitet for parsing av HTML-sider. I forrige seksjon jobbet du med HTML som en streng, noe som medførte betydelige begrensninger.

For å installere BeautifulSoup, kjør følgende kommando i terminalen eller ledeteksten:

  • pip install beautifulsoup4;
  • For å komme i gang, importer BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette biblioteket er utviklet for å arbeide med HTML-filer og håndterer ikke lenker. Dette kan imidlertid administreres ved å bruke urlopen fra urllib.request. For å starte parsing, oppgi to parametere til BeautifulSoup-funksjonen: HTML-filen og parseren (bruk den innebygde html.parser). Dette oppretter et BeautifulSoup-objekt. For eksempel, åpne og les en nettside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metoden som bør utforskes er .prettify(), som viser HTML-filen som en nestet datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 1
some-alt