Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Naviguer dans le Document HTML | Décoder HTML avec Beautiful Soup
Extraction de Données Web avec Python
course content

Contenu du cours

Extraction de Données Web avec Python

Extraction de Données Web avec Python

1. Se Familiariser avec HTML
2. Décoder HTML avec Beautiful Soup
3. Travailler avec les Attributs d'Élément dans Beautiful Soup

book
Naviguer dans le Document HTML

Après avoir lu le document HTML, vous avez la possibilité de le parcourir de plusieurs manières. Pour aller plus loin, vous pouvez spécifier une balise comme si c'était un attribut. Par exemple, examinons l'élément <head> et représentons-le sous une forme 'structurée' (en utilisant la méthode .prettify()).

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.head.prettify())
copy

Vous pouvez expérimenter librement en remplaçant, par exemple, l'attribut .head par .body. Comme indiqué ci-dessus, l'élément <head> comprend plusieurs enfants. Vous pouvez parcourir tous les enfants des éléments en utilisant une boucle for et l'attribut .children.

1234567891011121314
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") # Iterating over all element children for child in soup.head.children: print(child)
copy

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2
We're sorry to hear that something went wrong. What happened?
some-alt