Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Appliquer les Méthodes de Chaîne | Se Familiariser avec HTML
Extraction de Données Web avec Python
course content

Contenu du cours

Extraction de Données Web avec Python

Extraction de Données Web avec Python

1. Se Familiariser avec HTML
2. Décoder HTML avec Beautiful Soup
3. Travailler avec les Attributs d'Élément dans Beautiful Soup

book
Appliquer les Méthodes de Chaîne

Que pouvez-vous faire avec la page lue ? C'est une chaîne de caractères, vous pouvez donc utiliser n'importe quelle méthode de chaîne. Par exemple, vous pouvez utiliser la méthode .find(), qui renvoie l'indice de la première occurrence d'un élément spécifique. Par exemple, vous pouvez identifier le titre de la page en repérant les indices de la première balise d'ouverture et de fermeture. Nous prendrons également en compte la longueur de la balise de fermeture.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Comme démontré dans l'exemple ci-dessus, deux variables, start et finish, ont été créées. La variable start contient l'indice du premier élément dans la première occurrence de l'élément <title>. Pendant ce temps, la variable finish détient l'indice du caractère immédiatement après la balise de fermeture </title>. La méthode .find() elle-même a fourni l'indice initial de la balise de fermeture, nous avons donc ajouté la longueur de la balise pour obtenir l'indice du dernier élément.

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10
We're sorry to hear that something went wrong. What happened?
some-alt