Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce que Beautiful Soup ? | Décodage du HTML avec Beautiful Soup
Web Scraping avec Python

bookQu'est-ce que Beautiful Soup ?

BeautifulSoup est une bibliothèque Python qui offre des fonctionnalités avancées pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.

Pour installer BeautifulSoup, exécutez la commande suivante dans votre terminal ou invite de commandes :

  • pip install beautifulsoup4;
  • Pour commencer, importez BeautifulSoup depuis bs4 :

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, vous savez déjà comment gérer cela en utilisant urlopen de urllib.requests. Pour lancer l'analyse, il est nécessaire de fournir deux paramètres à la fonction BeautifulSoup : le premier est le fichier HTML, et le second est l'analyseur (nous utiliserons l'analyseur intégré html.parser). Cette opération créera un objet BeautifulSoup. Par exemple, ouvrons et lisons une page web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

La première méthode que nous allons examiner est .prettify(), qui présente le fichier HTML sous forme de structure de données imbriquée.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.35

bookQu'est-ce que Beautiful Soup ?

Glissez pour afficher le menu

BeautifulSoup est une bibliothèque Python qui offre des fonctionnalités avancées pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.

Pour installer BeautifulSoup, exécutez la commande suivante dans votre terminal ou invite de commandes :

  • pip install beautifulsoup4;
  • Pour commencer, importez BeautifulSoup depuis bs4 :

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, vous savez déjà comment gérer cela en utilisant urlopen de urllib.requests. Pour lancer l'analyse, il est nécessaire de fournir deux paramètres à la fonction BeautifulSoup : le premier est le fichier HTML, et le second est l'analyseur (nous utiliserons l'analyseur intégré html.parser). Cette opération créera un objet BeautifulSoup. Par exemple, ouvrons et lisons une page web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

La première méthode que nous allons examiner est .prettify(), qui présente le fichier HTML sous forme de structure de données imbriquée.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 1
some-alt