Application des Méthodes de Chaîne
Que pouvez-vous faire avec la page que vous avez lue ? Puisqu'il s'agit d'une chaîne de caractères, il est possible d'utiliser n'importe quelle méthode de chaîne. Par exemple, la méthode .find() retourne l'indice de la première occurrence d'un élément spécifique. Elle peut être utilisée pour localiser le titre de la page en trouvant les indices des balises d'ouverture et de fermeture, puis en tenant compte de la longueur de la balise de fermeture.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Comme illustré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start stocke l'indice du premier caractère à l'intérieur de la balise d'ouverture <title>, tandis que la variable finish stocke l'indice du caractère juste après la balise de fermeture </title>. La méthode .find() retourne l'indice de début de la balise de fermeture, il est donc nécessaire d'ajouter la longueur de la balise pour obtenir la position finale.
La découpe de liste exclut le dernier élément, c'est pourquoi le caractère suivant après la balise de fermeture est utilisé.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Can you explain how the .find() method works in more detail?
What other string methods can I use to process the web page content?
Can you show how to extract just the text inside the <title> tags?
Awesome!
Completion rate improved to 4.35
Application des Méthodes de Chaîne
Glissez pour afficher le menu
Que pouvez-vous faire avec la page que vous avez lue ? Puisqu'il s'agit d'une chaîne de caractères, il est possible d'utiliser n'importe quelle méthode de chaîne. Par exemple, la méthode .find() retourne l'indice de la première occurrence d'un élément spécifique. Elle peut être utilisée pour localiser le titre de la page en trouvant les indices des balises d'ouverture et de fermeture, puis en tenant compte de la longueur de la balise de fermeture.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Comme illustré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start stocke l'indice du premier caractère à l'intérieur de la balise d'ouverture <title>, tandis que la variable finish stocke l'indice du caractère juste après la balise de fermeture </title>. La méthode .find() retourne l'indice de début de la balise de fermeture, il est donc nécessaire d'ajouter la longueur de la balise pour obtenir la position finale.
La découpe de liste exclut le dernier élément, c'est pourquoi le caractère suivant après la balise de fermeture est utilisé.
Merci pour vos commentaires !