Vad är Beautiful Soup?
BeautifulSoup
är ett python-bibliotek som erbjuder omfattande funktionalitet för att tolka HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.
För att installera BeautifulSoup
, kör följande kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4
;- För att komma igång, importera
BeautifulSoup
frånbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du vet dock redan hur du hanterar detta med urlopen från urllib.requests
. För att initiera parsning behöver du ange två parametrar till funktionen BeautifulSoup
: den första är HTML-filen och den andra är parsern (vi kommer att använda den inbyggda parsern html.parser
). Denna åtgärd skapar ett BeautifulSoup
-objekt. Till exempel, låt oss öppna och läsa en webbsida.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den första metoden vi kommer att undersöka är .prettify()
, som presenterar HTML-filen som en nästlad datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4.35
Vad är Beautiful Soup?
Svep för att visa menyn
BeautifulSoup
är ett python-bibliotek som erbjuder omfattande funktionalitet för att tolka HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.
För att installera BeautifulSoup
, kör följande kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4
;- För att komma igång, importera
BeautifulSoup
frånbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du vet dock redan hur du hanterar detta med urlopen från urllib.requests
. För att initiera parsning behöver du ange två parametrar till funktionen BeautifulSoup
: den första är HTML-filen och den andra är parsern (vi kommer att använda den inbyggda parsern html.parser
). Denna åtgärd skapar ett BeautifulSoup
-objekt. Till exempel, låt oss öppna och läsa en webbsida.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den första metoden vi kommer att undersöka är .prettify()
, som presenterar HTML-filen som en nästlad datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tack för dina kommentarer!