Ouverture d'un Fichier HTML
Vous êtes familiarisé avec les aspects fondamentaux de HTML, explorons la première méthode pour le manipuler en Python.
L'un des modules que vous pouvez utiliser pour gérer des fichiers HTML en Python est urllib.request
. Il est nécessaire d’import
la méthode urlopen
afin d’accéder aux pages web. Il suffit de fournir l’URL de la page à ouvrir comme paramètre à cette méthode.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Comme illustré dans l'exemple ci-dessus, vous obtenez un objet http.client.HTTPResponse
en résultat, ce qui diffère de ce que nous souhaitions. Pour obtenir la structure HTML, il convient d'appliquer les méthodes .read()
et .decode("utf-8")
à l'objet acquis.
La partie decode("utf-8")
est utilisée pour convertir les données binaires brutes en une chaîne lisible par l'humain, en supposant que le contenu de la page web est encodé en UTF-8. Cette conversion permet de manipuler les données textuelles contenues dans la page web de manière pertinente, par exemple pour analyser ou traiter son contenu.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
À la suite de l'application des méthodes .read()
et .decode()
, vous obtenez une chaîne de caractères. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et permet d'appliquer des méthodes de chaîne de caractères.
Si la méthode .decode()
n'était pas appliquée, vous obtiendriez un objet bytes avec l'intégralité de la page HTML représentée comme une seule chaîne avec des caractères spécifiques. N'hésitez pas à expérimenter avec cela !
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4.35
Ouverture d'un Fichier HTML
Glissez pour afficher le menu
Vous êtes familiarisé avec les aspects fondamentaux de HTML, explorons la première méthode pour le manipuler en Python.
L'un des modules que vous pouvez utiliser pour gérer des fichiers HTML en Python est urllib.request
. Il est nécessaire d’import
la méthode urlopen
afin d’accéder aux pages web. Il suffit de fournir l’URL de la page à ouvrir comme paramètre à cette méthode.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Comme illustré dans l'exemple ci-dessus, vous obtenez un objet http.client.HTTPResponse
en résultat, ce qui diffère de ce que nous souhaitions. Pour obtenir la structure HTML, il convient d'appliquer les méthodes .read()
et .decode("utf-8")
à l'objet acquis.
La partie decode("utf-8")
est utilisée pour convertir les données binaires brutes en une chaîne lisible par l'humain, en supposant que le contenu de la page web est encodé en UTF-8. Cette conversion permet de manipuler les données textuelles contenues dans la page web de manière pertinente, par exemple pour analyser ou traiter son contenu.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
À la suite de l'application des méthodes .read()
et .decode()
, vous obtenez une chaîne de caractères. Cette chaîne contient la structure HTML de manière bien formatée, ce qui la rend facilement lisible et permet d'appliquer des méthodes de chaîne de caractères.
Si la méthode .decode()
n'était pas appliquée, vous obtiendriez un objet bytes avec l'intégralité de la page HTML représentée comme une seule chaîne avec des caractères spécifiques. N'hésitez pas à expérimenter avec cela !
Merci pour vos commentaires !