Mikä on Beautiful Soup?
BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä aiheutti merkittäviä rajoituksia.
Asentaaksesi BeautifulSoup-kirjaston, suorita seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4;- Aloittaaksesi, tuo
BeautifulSoupbs4-kirjastosta:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita tätä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi avaa ja lue verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisennettynä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 4.35
Mikä on Beautiful Soup?
Pyyhkäise näyttääksesi valikon
BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä aiheutti merkittäviä rajoituksia.
Asentaaksesi BeautifulSoup-kirjaston, suorita seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4;- Aloittaaksesi, tuo
BeautifulSoupbs4-kirjastosta:
from bs4 import BeautifulSoup.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Voit kuitenkin hallita tätä käyttämällä urlopen-funktiota kirjastosta urllib.request. Jotta voit aloittaa jäsentämisen, anna kaksi parametria BeautifulSoup-funktiolle: HTML-tiedosto ja jäsentäjä (käytä sisäänrakennettua html.parser-jäsentäjää). Tämä luo BeautifulSoup-olion. Esimerkiksi avaa ja lue verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen tutkittava metodi on .prettify(), joka näyttää HTML-tiedoston sisennettynä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!