Glissez pour afficher le menu

Que pouvez-vous faire avec la page que vous avez lue ? Puisqu'il s'agit d'une chaîne de caractères, il est possible d'utiliser n'importe quelle méthode de chaîne. Par exemple, la méthode .find() retourne l'indice de la première occurrence d'un élément spécifique. Elle peut être utilisée pour localiser le titre de la page en trouvant les indices des balises d'ouverture et de fermeture, puis en tenant compte de la longueur de la balise de fermeture.


              1234567891011121314
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")

# Indexes of opening and closing title tags
start = web_page.find("<title")
finish = web_page.find("</title>") + len("</title>")
print(web_page[start:finish])

Comme illustré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start stocke l'indice du premier caractère à l'intérieur de la balise d'ouverture <title>, tandis que la variable finish stocke l'indice du caractère juste après la balise de fermeture </title>. La méthode .find() retourne l'indice de début de la balise de fermeture, il est donc nécessaire d'ajouter la longueur de la balise pour obtenir la position finale.

Approfondir

La découpe de liste exclut le dernier élément, c'est pourquoi le caractère suivant après la balise de fermeture est utilisé.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 10

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Application des Méthodes de Chaîne


              1234567891011121314
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")

# Indexes of opening and closing title tags
start = web_page.find("<title")
finish = web_page.find("</title>") + len("</title>")
print(web_page[start:finish])

Approfondir

La découpe de liste exclut le dernier élément, c'est pourquoi le caractère suivant après la balise de fermeture est utilisé.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 10