Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Vad är Beautiful Soup? | Avkoda HTML med Beautiful Soup
Web Scraping med Python

bookVad är Beautiful Soup?

BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att tolka HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.

För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • För att komma igång, importera BeautifulSoup från bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du vet dock redan hur du hanterar detta med urlopen från urllib.requests. För att initiera parsning behöver du ange två parametrar till funktionen BeautifulSoup: den första är HTML-filen och den andra är parsern (vi kommer att använda den inbyggda parsern html.parser). Denna åtgärd skapar ett BeautifulSoup-objekt. Till exempel, låt oss öppna och läsa en webbsida.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den första metoden vi kommer att undersöka är .prettify(), som presenterar HTML-filen som en nästlad datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 1

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.35

bookVad är Beautiful Soup?

Svep för att visa menyn

BeautifulSoup är ett python-bibliotek som erbjuder omfattande funktionalitet för att tolka HTML-sidor. I föregående avsnitt arbetade du med HTML som en sträng, vilket medförde betydande begränsningar.

För att installera BeautifulSoup, kör följande kommando i din terminal eller kommandoprompt:

  • pip install beautifulsoup4;
  • För att komma igång, importera BeautifulSoup från bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Detta bibliotek är utformat för att arbeta med HTML-filer och hanterar inte länkar. Du vet dock redan hur du hanterar detta med urlopen från urllib.requests. För att initiera parsning behöver du ange två parametrar till funktionen BeautifulSoup: den första är HTML-filen och den andra är parsern (vi kommer att använda den inbyggda parsern html.parser). Denna åtgärd skapar ett BeautifulSoup-objekt. Till exempel, låt oss öppna och läsa en webbsida.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Den första metoden vi kommer att undersöka är .prettify(), som presenterar HTML-filen som en nästlad datastruktur.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 1
some-alt