Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on Beautiful Soup? | HTML:n Purkaminen Beautiful Soupilla
Verkkosivujen Tietojen Keruu Pythonilla

bookMikä on Beautiful Soup?

BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.

Asenna BeautifulSoup suorittamalla seuraava komento terminaalissa tai komentokehotteessa:

  • pip install beautifulsoup4;
  • Aloittaaksesi, tuo BeautifulSoup kirjastosta bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Kuitenkin osaat jo käsitellä niitä käyttämällä urlopen-funktiota urllib.requests-kirjastosta. Jotta jäsentäminen voidaan aloittaa, sinun tulee antaa kaksi parametria BeautifulSoup-funktiolle: ensimmäinen on HTML-tiedosto ja toinen on jäsentäjä (käytämme sisäänrakennettua html.parser-jäsentäjää). Tämä toiminto luo BeautifulSoup-olion. Esimerkiksi avataan ja luetaan verkkosivu.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Ensimmäinen menetelmä, jota tarkastelemme, on .prettify(), joka esittää HTML-tiedoston sisäkkäisenä tietorakenteena.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What is the purpose of specifying "html.parser" as the parser?

Awesome!

Completion rate improved to 4.35

bookMikä on Beautiful Soup?

Pyyhkäise näyttääksesi valikon

BeautifulSoup on Python-kirjasto, joka tarjoaa laajat ominaisuudet HTML-sivujen jäsentämiseen. Edellisessä osiossa käsittelit HTML:ää merkkijonona, mikä asetti merkittäviä rajoituksia.

Asenna BeautifulSoup suorittamalla seuraava komento terminaalissa tai komentokehotteessa:

  • pip install beautifulsoup4;
  • Aloittaaksesi, tuo BeautifulSoup kirjastosta bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Tämä kirjasto on suunniteltu HTML-tiedostojen käsittelyyn, eikä se käsittele linkkejä. Kuitenkin osaat jo käsitellä niitä käyttämällä urlopen-funktiota urllib.requests-kirjastosta. Jotta jäsentäminen voidaan aloittaa, sinun tulee antaa kaksi parametria BeautifulSoup-funktiolle: ensimmäinen on HTML-tiedosto ja toinen on jäsentäjä (käytämme sisäänrakennettua html.parser-jäsentäjää). Tämä toiminto luo BeautifulSoup-olion. Esimerkiksi avataan ja luetaan verkkosivu.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Ensimmäinen menetelmä, jota tarkastelemme, on .prettify(), joka esittää HTML-tiedoston sisäkkäisenä tietorakenteena.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 1
some-alt