Application des Méthodes de Chaîne
Que pouvez-vous faire avec la page lue ? Il s'agit d'une chaîne de caractères, vous pouvez donc utiliser n'importe quelle méthode de chaîne. Par exemple, il est possible d'utiliser la méthode .find()
, qui retourne l'indice de la première occurrence d'un élément spécifique. Par exemple, il est possible de localiser le titre de la page en identifiant les indices de la première balise ouvrante et de la balise fermante correspondante. Nous prendrons également en compte la longueur de la balise fermante.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Comme démontré dans l'exemple ci-dessus, deux variables, start
et finish
, ont été créées. La variable start
contient l'indice du premier élément à l'intérieur de la première occurrence de l'élément <title>
. Par ailleurs, la variable finish
contient l'indice du caractère immédiatement après la balise fermante </title>
. La méthode .find()
a fourni l'indice initial de la balise fermante, il a donc été nécessaire d'ajouter la longueur de la balise pour obtenir l'indice du dernier élément.
La découpe de liste exclut le dernier élément, c'est pourquoi nous recherchons le caractère suivant après la balise de fermeture.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain how the .find() method works in more detail?
What other string methods can I use to process the web page content?
How can I extract other elements from the HTML using similar techniques?
Awesome!
Completion rate improved to 4.35
Application des Méthodes de Chaîne
Glissez pour afficher le menu
Que pouvez-vous faire avec la page lue ? Il s'agit d'une chaîne de caractères, vous pouvez donc utiliser n'importe quelle méthode de chaîne. Par exemple, il est possible d'utiliser la méthode .find()
, qui retourne l'indice de la première occurrence d'un élément spécifique. Par exemple, il est possible de localiser le titre de la page en identifiant les indices de la première balise ouvrante et de la balise fermante correspondante. Nous prendrons également en compte la longueur de la balise fermante.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Comme démontré dans l'exemple ci-dessus, deux variables, start
et finish
, ont été créées. La variable start
contient l'indice du premier élément à l'intérieur de la première occurrence de l'élément <title>
. Par ailleurs, la variable finish
contient l'indice du caractère immédiatement après la balise fermante </title>
. La méthode .find()
a fourni l'indice initial de la balise fermante, il a donc été nécessaire d'ajouter la longueur de la balise pour obtenir l'indice du dernier élément.
La découpe de liste exclut le dernier élément, c'est pourquoi nous recherchons le caractère suivant après la balise de fermeture.
Merci pour vos commentaires !