Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Attributi e Contenuti dell'Elemento | Lavorare con gli Attributi degli Elementi in Beautiful Soup
Web Scraping con Python

bookAttributi e Contenuti dell'Elemento

I metodi discussi nelle sezioni precedenti restituiscono parti specifiche del codice HTML. BeautifulSoup consente di recuperare gli attributi e i contenuti di elementi particolari. Per accedere agli attributi di un oggetto, utilizzare l'attributo .attrs. Ad esempio, è possibile recuperare gli attributi del primo elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

È importante notare che il risultato dell'utilizzo dell'attributo .attrs è un dizionario in cui le chiavi sono i nomi degli attributi e i valori sono i rispettivi valori. Se si desidera ottenere il contenuto memorizzato all'interno di un tag, utilizzare l'attributo .contents. Ad esempio, esaminiamo i contenuti del primo elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Come osservato sopra, tutti i caratteri di nuova riga sono stati inclusi in un elenco di elementi, il che potrebbe non rappresentare la modalità più desiderabile di visualizzazione del contenuto. Per estrarre solo il testo all'interno di un elemento specifico, utilizzare il metodo .get_text(). Confrontare i risultati dell'esempio seguente con quelli ottenuti in precedenza.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

What is the difference between .attrs, .contents, and .get_text() in BeautifulSoup?

Can you explain how to use .attrs to get specific attribute values?

How can I extract text from other HTML elements using BeautifulSoup?

Awesome!

Completion rate improved to 4.35

bookAttributi e Contenuti dell'Elemento

Scorri per mostrare il menu

I metodi discussi nelle sezioni precedenti restituiscono parti specifiche del codice HTML. BeautifulSoup consente di recuperare gli attributi e i contenuti di elementi particolari. Per accedere agli attributi di un oggetto, utilizzare l'attributo .attrs. Ad esempio, è possibile recuperare gli attributi del primo elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
copy

È importante notare che il risultato dell'utilizzo dell'attributo .attrs è un dizionario in cui le chiavi sono i nomi degli attributi e i valori sono i rispettivi valori. Se si desidera ottenere il contenuto memorizzato all'interno di un tag, utilizzare l'attributo .contents. Ad esempio, esaminiamo i contenuti del primo elemento <div>.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
copy

Come osservato sopra, tutti i caratteri di nuova riga sono stati inclusi in un elenco di elementi, il che potrebbe non rappresentare la modalità più desiderabile di visualizzazione del contenuto. Per estrarre solo il testo all'interno di un elemento specifico, utilizzare il metodo .get_text(). Confrontare i risultati dell'esempio seguente con quelli ottenuti in precedenza.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
copy
Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1
some-alt