Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Che cos'è Beautiful Soup? | Decodifica HTML con Beautiful Soup
Web Scraping con Python

bookChe cos'è Beautiful Soup?

BeautifulSoup è una libreria python che offre funzionalità avanzate per l'analisi delle pagine HTML. Nella sezione precedente, hai lavorato con HTML come stringa, il che comportava notevoli limitazioni.

Per installare BeautifulSoup, eseguire il seguente comando nel terminale o prompt dei comandi:

  • pip install beautifulsoup4;
  • Per iniziare, importare BeautifulSoup da bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Questa libreria è progettata per lavorare con file HTML e non gestisce i collegamenti. Tuttavia, sai già come affrontare questo aspetto utilizzando urlopen da urllib.requests. Per avviare l'analisi, è necessario fornire due parametri alla funzione BeautifulSoup: il primo è il file HTML, mentre il secondo è il parser (utilizzeremo il parser integrato html.parser). Questa operazione creerà un oggetto BeautifulSoup. Ad esempio, apriamo e leggiamo una pagina web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Il primo metodo che esamineremo è .prettify(), che presenta il file HTML come una struttura dati annidata.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4.35

bookChe cos'è Beautiful Soup?

Scorri per mostrare il menu

BeautifulSoup è una libreria python che offre funzionalità avanzate per l'analisi delle pagine HTML. Nella sezione precedente, hai lavorato con HTML come stringa, il che comportava notevoli limitazioni.

Per installare BeautifulSoup, eseguire il seguente comando nel terminale o prompt dei comandi:

  • pip install beautifulsoup4;
  • Per iniziare, importare BeautifulSoup da bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Questa libreria è progettata per lavorare con file HTML e non gestisce i collegamenti. Tuttavia, sai già come affrontare questo aspetto utilizzando urlopen da urllib.requests. Per avviare l'analisi, è necessario fornire due parametri alla funzione BeautifulSoup: il primo è il file HTML, mentre il secondo è il parser (utilizzeremo il parser integrato html.parser). Questa operazione creerà un oggetto BeautifulSoup. Ad esempio, apriamo e leggiamo una pagina web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

Il primo metodo che esamineremo è .prettify(), che presenta il file HTML come una struttura dati annidata.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 2. Capitolo 1
some-alt