Contenu du cours
Extraction de Données Web avec Python
Extraction de Données Web avec Python
3. Travailler avec les Attributs d'Élément dans Beautiful Soup
Naviguer dans le Document HTML
Après avoir lu le document HTML, vous avez la possibilité de le parcourir de plusieurs manières. Pour aller plus loin, vous pouvez spécifier une balise comme si c'était un attribut. Par exemple, examinons l'élément <head>
et représentons-le sous une forme 'structurée' (en utilisant la méthode .prettify()
).
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.head.prettify())
Vous pouvez expérimenter librement en remplaçant, par exemple, l'attribut .head
par .body
. Comme indiqué ci-dessus, l'élément <head>
comprend plusieurs enfants. Vous pouvez parcourir tous les enfants des éléments en utilisant une boucle for
et l'attribut .children
.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") # Iterating over all element children for child in soup.head.children: print(child)
Tout était clair ?
Merci pour vos commentaires !
Section 2. Chapitre 2