Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad är Beautiful Soup? | Avkoda HTML med Beautiful Soup
Web Scraping med Python

bookVad är Beautiful Soup?

Svep för att visa menyn

BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att parsa HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.

För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • För att komma igång, importera BeautifulSoup från bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du kan dock hantera detta med hjälp av urlopen från urllib.request. För att börja parsa, ange två parametrar till funktionen BeautifulSoup: HTML-filen och parsern (använd den inbyggda html.parser). Detta skapar ett BeautifulSoup-objekt. Till exempel, öppna och läs en webbsida.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den första metoden att utforska är .prettify(), som visar HTML-filen som en nästlad datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 2. Kapitel 1
some-alt