Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Ouverture du Fichier HTML | Se Familiariser avec HTML
Extraction de Données Web avec Python
course content

Contenu du cours

Extraction de Données Web avec Python

Extraction de Données Web avec Python

1. Se Familiariser avec HTML
2. Décoder HTML avec Beautiful Soup
3. Travailler avec les Attributs d'Élément dans Beautiful Soup

book
Ouverture du Fichier HTML

Vous êtes familiarisé avec les aspects fondamentaux de HTML, explorons la méthode initiale pour travailler avec lui en Python.

L'un des modules que vous pouvez utiliser pour gérer les fichiers HTML en Python est urllib.request. Vous devrez import la méthode urlopen pour accéder aux pages Web. Il vous suffit de fournir l'URL de la page que vous souhaitez ouvrir comme paramètre à cette méthode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Comme indiqué dans l'exemple ci-dessus, vous recevez en résultat un objet http.client.HTTPResponse, ce qui diffère de ce que nous voulions obtenir. Pour obtenir la structure HTML, vous devez appliquer les méthodes .read() et .decode("utf-8") à l'objet que vous avez acquis.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

En appliquant les méthodes .read() et .decode(), vous obtenez une chaîne de caractères. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et vous permet d'appliquer des méthodes de chaîne.

Si la méthode .decode() n'était pas appliquée, vous recevriez un objet bytes avec l'intégralité de la page HTML représentée sous forme de chaîne unique avec des caractères spécifiques. N'hésitez pas à expérimenter !

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 8
We're sorry to hear that something went wrong. What happened?
some-alt