Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Application des Méthodes de Chaîne de Caractères | Découverte de HTML
Web Scraping avec Python

bookApplication des Méthodes de Chaîne de Caractères

Que pouvez-vous faire avec la page que vous avez lue ? Puisqu'il s'agit d'une chaîne de caractères, vous pouvez utiliser n'importe quelle méthode de chaîne. Par exemple, la méthode .find() retourne l'indice de la première occurrence d'un élément spécifique. Vous pouvez l'utiliser pour localiser le titre de la page en trouvant les indices des balises d'ouverture et de fermeture, puis en tenant compte de la longueur de la balise de fermeture.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Comme illustré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start stocke l'indice du premier caractère à l'intérieur de la balise d'ouverture <title>, tandis que la variable finish stocke l'indice du caractère juste après la balise de fermeture </title>. La méthode .find() retourne l'indice de début de la balise de fermeture, donc la longueur de la balise est ajoutée pour obtenir la position finale.

Note
Approfondir

Le découpage de liste exclut le dernier élément, c’est pourquoi le caractère suivant la balise de fermeture est utilisé.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.35

bookApplication des Méthodes de Chaîne de Caractères

Glissez pour afficher le menu

Que pouvez-vous faire avec la page que vous avez lue ? Puisqu'il s'agit d'une chaîne de caractères, vous pouvez utiliser n'importe quelle méthode de chaîne. Par exemple, la méthode .find() retourne l'indice de la première occurrence d'un élément spécifique. Vous pouvez l'utiliser pour localiser le titre de la page en trouvant les indices des balises d'ouverture et de fermeture, puis en tenant compte de la longueur de la balise de fermeture.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Comme illustré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start stocke l'indice du premier caractère à l'intérieur de la balise d'ouverture <title>, tandis que la variable finish stocke l'indice du caractère juste après la balise de fermeture </title>. La méthode .find() retourne l'indice de début de la balise de fermeture, donc la longueur de la balise est ajoutée pour obtenir la position finale.

Note
Approfondir

Le découpage de liste exclut le dernier élément, c’est pourquoi le caractère suivant la balise de fermeture est utilisé.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10
some-alt