Glissez pour afficher le menu

Vous maîtrisez déjà les bases du HTML, il est donc temps d'explorer la première méthode pour le manipuler avec Python.

L'un des modules que vous pouvez utiliser pour traiter les fichiers HTML en Python est urllib.request. Il est nécessaire d’import la méthode urlopen pour accéder aux pages web. Il suffit de fournir l’URL de la page à ouvrir en tant que paramètre de cette méthode.


              1234567
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Comme indiqué dans l'exemple ci-dessus, le résultat est un objet http.client.HTTPResponse, ce qui n'est pas le résultat souhaité. Pour obtenir la structure HTML, appliquez les méthodes .read() et .decode('utf-8') à l'objet que vous avez reçu.

Définition

La partie decode("utf-8") est utilisée pour convertir les données binaires brutes en une chaîne lisible par l'humain, en supposant que le contenu de la page web est encodé en UTF-8. Cette conversion permet de travailler de manière significative avec les données textuelles contenues dans la page web, comme l'analyse ou le traitement de son contenu.


              1234567891011
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

À la suite de l'application des méthodes .read() et .decode(), vous obtenez une chaîne de caractères. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et permet d'appliquer des méthodes de chaîne de caractères.

Si la méthode .decode() n'était pas appliquée, vous obtiendriez un objet bytes avec l'intégralité de la page HTML représentée comme une seule chaîne avec des caractères spécifiques. N'hésitez pas à expérimenter avec cela !

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 8

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Ouverture du fichier HTML

Vous maîtrisez déjà les bases du HTML, il est donc temps d'explorer la première méthode pour le manipuler avec Python.


              1234567
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Définition


              1234567891011
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 8