Che cos'è Beautiful Soup?
BeautifulSoup
è una libreria python che offre funzionalità avanzate per l'analisi delle pagine HTML. Nella sezione precedente, hai lavorato con HTML come stringa, il che comportava notevoli limitazioni.
Per installare BeautifulSoup
, eseguire il seguente comando nel terminale o prompt dei comandi:
pip install beautifulsoup4
;- Per iniziare, importare
BeautifulSoup
dabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Questa libreria è progettata per lavorare con file HTML e non gestisce i collegamenti. Tuttavia, sai già come affrontare questo aspetto utilizzando urlopen da urllib.requests
. Per avviare l'analisi, è necessario fornire due parametri alla funzione BeautifulSoup
: il primo è il file HTML, mentre il secondo è il parser (utilizzeremo il parser integrato html.parser
). Questa operazione creerà un oggetto BeautifulSoup
. Ad esempio, apriamo e leggiamo una pagina web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Il primo metodo che esamineremo è .prettify()
, che presenta il file HTML come una struttura dati annidata.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 4.35
Che cos'è Beautiful Soup?
Scorri per mostrare il menu
BeautifulSoup
è una libreria python che offre funzionalità avanzate per l'analisi delle pagine HTML. Nella sezione precedente, hai lavorato con HTML come stringa, il che comportava notevoli limitazioni.
Per installare BeautifulSoup
, eseguire il seguente comando nel terminale o prompt dei comandi:
pip install beautifulsoup4
;- Per iniziare, importare
BeautifulSoup
dabs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Questa libreria è progettata per lavorare con file HTML e non gestisce i collegamenti. Tuttavia, sai già come affrontare questo aspetto utilizzando urlopen da urllib.requests
. Per avviare l'analisi, è necessario fornire due parametri alla funzione BeautifulSoup
: il primo è il file HTML, mentre il secondo è il parser (utilizzeremo il parser integrato html.parser
). Questa operazione creerà un oggetto BeautifulSoup
. Ad esempio, apriamo e leggiamo una pagina web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
Il primo metodo che esamineremo è .prettify()
, che presenta il file HTML come una struttura dati annidata.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Grazie per i tuoi commenti!