Vad är Beautiful Soup?
Svep för att visa menyn
BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att parsa HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.
För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:
pip install beautifulsoup4;- För att komma igång, importera
BeautifulSoupfrånbs4:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du kan dock hantera detta med hjälp av urlopen från urllib.request. För att börja parsa, ange två parametrar till funktionen BeautifulSoup: HTML-filen och parsern (använd den inbyggda html.parser). Detta skapar ett BeautifulSoup-objekt. Till exempel, öppna och läs en webbsida.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Den första metoden att utforska är .prettify(), som visar HTML-filen som en nästlad datastruktur.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal