Contenu du cours
Extraction de Données Web avec Python
Extraction de Données Web avec Python
Attributs et Contenus de Plusieurs Éléments
Toutes les méthodes abordées dans le chapitre précédent peuvent être appliquées à tous les éléments ayant une balise spécifique (c'est-à-dire, au résultat de la méthode .find_all()
). Cependant, il est essentiel de garder à l'esprit que le résultat de l'application de la méthode .find_all()
est une liste, donc vous devez utiliser les attributs et les méthodes pour chaque élément individuellement. Comme nous l'avons fait précédemment, vous devriez également utiliser une boucle for
dans ce contexte. Par exemple, récupérons tous les attributs de tous les éléments <div>
.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div"): print(div.attrs)
La même approche s'applique à l'extraction du texte. Par exemple, obtenons tout le texte de tous les éléments <p>
.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for p in soup.find_all("p"): print(p.get_text())
Merci pour vos commentaires !