Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Application des Méthodes de Chaîne | Découverte de HTML
Web Scraping avec Python

bookApplication des Méthodes de Chaîne

Que pouvez-vous faire avec la page lue ? Il s'agit d'une chaîne de caractères, vous pouvez donc utiliser n'importe quelle méthode de chaîne. Par exemple, il est possible d'utiliser la méthode .find(), qui retourne l'indice de la première occurrence d'un élément spécifique. Par exemple, il est possible de localiser le titre de la page en identifiant les indices de la première balise ouvrante et de la balise fermante correspondante. Nous prendrons également en compte la longueur de la balise fermante.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Comme démontré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start contient l'indice du premier élément à l'intérieur de la première occurrence de l'élément <title>. Par ailleurs, la variable finish contient l'indice du caractère immédiatement après la balise fermante </title>. La méthode .find() a fourni l'indice initial de la balise fermante, il a donc été nécessaire d'ajouter la longueur de la balise pour obtenir l'indice du dernier élément.

Note
Approfondir

La découpe de liste exclut le dernier élément, c'est pourquoi nous recherchons le caractère suivant après la balise de fermeture.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

How can I extract other elements from the HTML using similar techniques?

Awesome!

Completion rate improved to 4.35

bookApplication des Méthodes de Chaîne

Glissez pour afficher le menu

Que pouvez-vous faire avec la page lue ? Il s'agit d'une chaîne de caractères, vous pouvez donc utiliser n'importe quelle méthode de chaîne. Par exemple, il est possible d'utiliser la méthode .find(), qui retourne l'indice de la première occurrence d'un élément spécifique. Par exemple, il est possible de localiser le titre de la page en identifiant les indices de la première balise ouvrante et de la balise fermante correspondante. Nous prendrons également en compte la longueur de la balise fermante.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Comme démontré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start contient l'indice du premier élément à l'intérieur de la première occurrence de l'élément <title>. Par ailleurs, la variable finish contient l'indice du caractère immédiatement après la balise fermante </title>. La méthode .find() a fourni l'indice initial de la balise fermante, il a donc été nécessaire d'ajouter la longueur de la balise pour obtenir l'indice du dernier élément.

Note
Approfondir

La découpe de liste exclut le dernier élément, c'est pourquoi nous recherchons le caractère suivant après la balise de fermeture.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10
some-alt