Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hvad er Beautiful Soup? | Afkodning af HTML med Beautiful Soup
Web Scraping med Python

bookHvad er Beautiful Soup?

Stryg for at vise menuen

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at parse HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere det ved at bruge urlopen fra urllib.request. For at begynde at analysere, angiv to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den første metode, der skal udforskes, er .prettify(), som viser HTML-filen som en indlejret datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 1
some-alt