Ricerca Avanzata
Alcuni tag HTML richiedono attributi obbligatori, come il tag anchor che necessita dell'attributo href o il tag <img> che richiede l'attributo src. Per accedere a un attributo specifico, utilizzare il metodo .get() dopo .attrs. Ad esempio, recuperare tutti gli attributi src da tutti gli elementi <img>.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for img in soup.find_all("img"): print(img.attrs.get("src"))
Potresti anche incontrare l'attributo id, comunemente utilizzato per distinguere elementi con lo stesso tag. Per cercare elementi con valori di attributo specifici, passarli come dizionario nel formato attr_name: attr_value al metodo .find_all(), subito dopo aver specificato il tag. Ad esempio, trovare tutti gli elementi <div> con l'attributo class impostato su "box" o l'elemento <p> con il valore dell'attributo "id" pari a "id2".
12345678910111213141516# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div", {"class": "box"}): print(div) # Filtering by id attribute value print(soup.find("p", {"id": "id2"}))
Il metodo .find() viene utilizzato al posto di .find_all() per ottenere un elemento tramite il suo id, poiché un id è un identificatore univoco e non può comparire più di una volta. Per confermare che sono stati recuperati solo specifici elementi <div>, verificare le classi assegnate agli elementi <div>.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div"): print(div.attrs.get("class"))
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Fantastico!
Completion tasso migliorato a 4.35
Ricerca Avanzata
Scorri per mostrare il menu
Alcuni tag HTML richiedono attributi obbligatori, come il tag anchor che necessita dell'attributo href o il tag <img> che richiede l'attributo src. Per accedere a un attributo specifico, utilizzare il metodo .get() dopo .attrs. Ad esempio, recuperare tutti gli attributi src da tutti gli elementi <img>.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for img in soup.find_all("img"): print(img.attrs.get("src"))
Potresti anche incontrare l'attributo id, comunemente utilizzato per distinguere elementi con lo stesso tag. Per cercare elementi con valori di attributo specifici, passarli come dizionario nel formato attr_name: attr_value al metodo .find_all(), subito dopo aver specificato il tag. Ad esempio, trovare tutti gli elementi <div> con l'attributo class impostato su "box" o l'elemento <p> con il valore dell'attributo "id" pari a "id2".
12345678910111213141516# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div", {"class": "box"}): print(div) # Filtering by id attribute value print(soup.find("p", {"id": "id2"}))
Il metodo .find() viene utilizzato al posto di .find_all() per ottenere un elemento tramite il suo id, poiché un id è un identificatore univoco e non può comparire più di una volta. Per confermare che sono stati recuperati solo specifici elementi <div>, verificare le classi assegnate agli elementi <div>.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div"): print(div.attrs.get("class"))
Grazie per i tuoi commenti!