Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Attributs et Contenus de Plusieurs Éléments | Travailler avec les Attributs d'Élément dans Beautiful Soup
Extraction de Données Web avec Python
course content

Contenu du cours

Extraction de Données Web avec Python

Extraction de Données Web avec Python

1. Se Familiariser avec HTML
2. Décoder HTML avec Beautiful Soup
3. Travailler avec les Attributs d'Élément dans Beautiful Soup

book
Attributs et Contenus de Plusieurs Éléments

Toutes les méthodes abordées dans le chapitre précédent peuvent être appliquées à tous les éléments ayant une balise spécifique (c'est-à-dire, au résultat de la méthode .find_all()). Cependant, il est essentiel de garder à l'esprit que le résultat de l'application de la méthode .find_all() est une liste, donc vous devez utiliser les attributs et les méthodes pour chaque élément individuellement. Comme nous l'avons fait précédemment, vous devriez également utiliser une boucle for dans ce contexte. Par exemple, récupérons tous les attributs de tous les éléments <div>.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div"): print(div.attrs)
copy

La même approche s'applique à l'extraction du texte. Par exemple, obtenons tout le texte de tous les éléments <p>.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for p in soup.find_all("p"): print(p.get_text())
copy

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 3
We're sorry to hear that something went wrong. What happened?
some-alt