Mikä on Beautiful Soup?
Pyyhkäise näyttääksesi valikon
BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä aiheutti merkittäviä rajoituksia.
Asentaaksesi BeautifulSoup-kirjaston, suorita seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4;- Aloittaaksesi, tuo
BeautifulSoupbs4-kirjastosta:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita tätä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi avaa ja lue verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisennettynä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme