Mikä on Beautiful Soup?
BeautifulSoup
on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.
Asenna BeautifulSoup
suorittamalla seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4
;- Aloittaaksesi, tuo
BeautifulSoup
kirjastostabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Kuitenkin osaat jo käsitellä niitä käyttämällä urlopen-funktiota urllib.requests
-kirjastosta. Jotta jäsentäminen voidaan aloittaa, sinun tulee antaa kaksi parametria BeautifulSoup
-funktiolle: ensimmäinen on HTML-tiedosto ja toinen on jäsentäjä (käytämme sisäänrakennettua html.parser
-jäsentäjää). Tämä toiminto luo BeautifulSoup
-olion. Esimerkiksi avataan ja luetaan verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen menetelmä, jota tarkastelemme, on .prettify()
, joka esittää HTML-tiedoston sisäkkäisenä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What is the purpose of specifying "html.parser" as the parser?
Awesome!
Completion rate improved to 4.35
Mikä on Beautiful Soup?
Pyyhkäise näyttääksesi valikon
BeautifulSoup
on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.
Asenna BeautifulSoup
suorittamalla seuraava komento terminaalissa tai komentokehotteessa:
pip install beautifulsoup4
;- Aloittaaksesi, tuo
BeautifulSoup
kirjastostabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Kuitenkin osaat jo käsitellä niitä käyttämällä urlopen-funktiota urllib.requests
-kirjastosta. Jotta jäsentäminen voidaan aloittaa, sinun tulee antaa kaksi parametria BeautifulSoup
-funktiolle: ensimmäinen on HTML-tiedosto ja toinen on jäsentäjä (käytämme sisäänrakennettua html.parser
-jäsentäjää). Tämä toiminto luo BeautifulSoup
-olion. Esimerkiksi avataan ja luetaan verkkosivu.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Ensimmäinen menetelmä, jota tarkastelemme, on .prettify()
, joka esittää HTML-tiedoston sisäkkäisenä tietorakenteena.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Kiitos palautteestasi!