Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad er Beautiful Soup? | Afkodning af HTML med Beautiful Soup
Web Scraping med Python

bookHvad er Beautiful Soup?

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at analysere HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du ved dog allerede, hvordan du håndterer dette ved hjælp af urlopen fra urllib.requests. For at starte parsningen skal du angive to parametre til funktionen BeautifulSoup: den første er HTML-filen, og den anden er parseren (vi vil bruge den indbyggede parser html.parser). Denne handling opretter et BeautifulSoup-objekt. For eksempel, lad os åbne og læse en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, vi vil undersøge, er .prettify(), som præsenterer HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What is the purpose of specifying "html.parser" as the parser?

Awesome!

Completion rate improved to 4.35

bookHvad er Beautiful Soup?

Stryg for at vise menuen

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at analysere HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du ved dog allerede, hvordan du håndterer dette ved hjælp af urlopen fra urllib.requests. For at starte parsningen skal du angive to parametre til funktionen BeautifulSoup: den første er HTML-filen, og den anden er parseren (vi vil bruge den indbyggede parser html.parser). Denne handling opretter et BeautifulSoup-objekt. For eksempel, lad os åbne og læse en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, vi vil undersøge, er .prettify(), som præsenterer HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1
some-alt