Contenu du cours
Extraction de Données Web avec Python
Extraction de Données Web avec Python
Appliquer les Méthodes de Chaîne
Que pouvez-vous faire avec la page lue ? C'est une chaîne de caractères, vous pouvez donc utiliser n'importe quelle méthode de chaîne. Par exemple, vous pouvez utiliser la méthode .find()
, qui renvoie l'indice de la première occurrence d'un élément spécifique. Par exemple, vous pouvez identifier le titre de la page en repérant les indices de la première balise d'ouverture et de fermeture. Nous prendrons également en compte la longueur de la balise de fermeture.
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Comme démontré dans l'exemple ci-dessus, deux variables, start
et finish
, ont été créées. La variable start
contient l'indice du premier élément dans la première occurrence de l'élément <title>
. Pendant ce temps, la variable finish
détient l'indice du caractère immédiatement après la balise de fermeture </title>
. La méthode .find()
elle-même a fourni l'indice initial de la balise de fermeture, nous avons donc ajouté la longueur de la balise pour obtenir l'indice du dernier élément.
Merci pour vos commentaires !