Hvad er Beautiful Soup?
BeautifulSoup
er et python-bibliotek, der tilbyder omfattende funktionalitet til at analysere HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.
For at installere BeautifulSoup
skal du køre følgende kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4
;- For at komme i gang skal du importere
BeautifulSoup
frabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du ved dog allerede, hvordan du håndterer dette ved hjælp af urlopen fra urllib.requests
. For at starte parsningen skal du angive to parametre til funktionen BeautifulSoup
: den første er HTML-filen, og den anden er parseren (vi vil bruge den indbyggede parser html.parser
). Denne handling opretter et BeautifulSoup
-objekt. For eksempel, lad os åbne og læse en webside.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den første metode, vi vil undersøge, er .prettify()
, som præsenterer HTML-filen som en indlejret datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What is the purpose of specifying "html.parser" as the parser?
Awesome!
Completion rate improved to 4.35
Hvad er Beautiful Soup?
Stryg for at vise menuen
BeautifulSoup
er et python-bibliotek, der tilbyder omfattende funktionalitet til at analysere HTML-sider. I det foregående afsnit arbejdede du med HTML som en streng, hvilket medførte betydelige begrænsninger.
For at installere BeautifulSoup
skal du køre følgende kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4
;- For at komme i gang skal du importere
BeautifulSoup
frabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Dette bibliotek er designet til at arbejde med HTML-filer og håndterer ikke links. Du ved dog allerede, hvordan du håndterer dette ved hjælp af urlopen fra urllib.requests
. For at starte parsningen skal du angive to parametre til funktionen BeautifulSoup
: den første er HTML-filen, og den anden er parseren (vi vil bruge den indbyggede parser html.parser
). Denne handling opretter et BeautifulSoup
-objekt. For eksempel, lad os åbne og læse en webside.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den første metode, vi vil undersøge, er .prettify()
, som præsenterer HTML-filen som en indlejret datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tak for dine kommentarer!