Lære Hvad er Beautiful Soup? | Afkodning af HTML med Beautiful Soup

Stryg for at vise menuen

BeautifulSoup er et python-bibliotek, der tilbyder omfattende funktionalitet til at parse HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.

For at installere BeautifulSoup skal du køre følgende kommando i din terminal eller kommandoprompt:

pip install beautifulsoup4;
For at komme i gang skal du importere BeautifulSoup fra bs4:

from bs4 import BeautifulSoup.


              123
            
# Importing the library
from bs4 import BeautifulSoup
print(BeautifulSoup)

Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du kan dog håndtere det ved at bruge urlopen fra urllib.request. For at begynde at analysere, angiv to parametre til funktionen BeautifulSoup: HTML-filen og parseren (brug den indbyggede html.parser). Dette opretter et BeautifulSoup-objekt. For eksempel, åbn og læs en webside.


              12345678910111213
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(type(soup))
print(soup)

Den første metode, der skal udforskes, er .prettify(), som viser HTML-filen som en indlejret datastruktur.


              123456789101112
            
# Importing libraries
from bs4 import BeautifulSoup
from urllib.request import urlopen

# Reading web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html"
page = urlopen(url)
html = page.read().decode("utf-8")

# Reading HTML with BeautifulSoup
soup = BeautifulSoup(html, "html.parser")
print(soup.prettify())

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 1

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 1