Attributi e Contenuti dell'Elemento
I metodi trattati in precedenza restituiscono parti specifiche del codice HTML. BeautifulSoup consente anche di accedere agli attributi e ai contenuti di elementi particolari. Per ottenere gli attributi di un elemento, utilizzare l'attributo .attrs. Ad esempio, recuperare gli attributi del primo elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Il risultato dell'utilizzo dell'attributo .attrs è un dizionario in cui le chiavi sono i nomi degli attributi e i valori sono i rispettivi valori. Per ottenere il contenuto all'interno di un tag, utilizzare l'attributo .contents. Ad esempio, verificare i contenuti del primo elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Come osservato sopra, tutti i caratteri di nuova riga sono stati inclusi in un elenco di elementi, il che potrebbe non rappresentare la modalità più desiderabile di visualizzazione del contenuto. Per estrarre solo il testo all'interno di un elemento specifico, utilizzare il metodo .get_text(). Confrontare i risultati dell'esempio seguente con quelli ottenuti in precedenza.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Awesome!
Completion rate improved to 4.35
Attributi e Contenuti dell'Elemento
Scorri per mostrare il menu
I metodi trattati in precedenza restituiscono parti specifiche del codice HTML. BeautifulSoup consente anche di accedere agli attributi e ai contenuti di elementi particolari. Per ottenere gli attributi di un elemento, utilizzare l'attributo .attrs. Ad esempio, recuperare gli attributi del primo elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").attrs)
Il risultato dell'utilizzo dell'attributo .attrs è un dizionario in cui le chiavi sono i nomi degli attributi e i valori sono i rispettivi valori. Per ottenere il contenuto all'interno di un tag, utilizzare l'attributo .contents. Ad esempio, verificare i contenuti del primo elemento <div>.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").contents)
Come osservato sopra, tutti i caratteri di nuova riga sono stati inclusi in un elenco di elementi, il che potrebbe non rappresentare la modalità più desiderabile di visualizzazione del contenuto. Per estrarre solo il testo all'interno di un elemento specifico, utilizzare il metodo .get_text(). Confrontare i risultati dell'esempio seguente con quelli ottenuti in precedenza.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div").get_text())
Grazie per i tuoi commenti!