Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad er Beautiful Soup? | Afkodning af HTML med Beautiful Soup
Practice
Projects
Quizzes & Challenges
Quizzes
Challenges
/
Web Scraping med Python

bookHvad er Beautiful Soup?

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at parse HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere det ved at bruge urlopen fra urllib.request. For at begynde at analysere, angiv to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, der skal udforskes, er .prettify(), som viser HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

bookHvad er Beautiful Soup?

Stryg for at vise menuen

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at parse HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere det ved at bruge urlopen fra urllib.request. For at begynde at analysere, angiv to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, der skal udforskes, er .prettify(), som viser HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1
some-alt