Qu'est-ce que Beautiful Soup ?
BeautifulSoup
est une bibliothèque Python qui offre des fonctionnalités avancées pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.
Pour installer BeautifulSoup
, exécutez la commande suivante dans votre terminal ou invite de commandes :
pip install beautifulsoup4
;- Pour commencer, importez
BeautifulSoup
depuisbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, vous savez déjà comment gérer cela en utilisant urlopen de urllib.requests
. Pour lancer l'analyse, il est nécessaire de fournir deux paramètres à la fonction BeautifulSoup
: le premier est le fichier HTML, et le second est l'analyseur (nous utiliserons l'analyseur intégré html.parser
). Cette opération créera un objet BeautifulSoup
. Par exemple, ouvrons et lisons une page web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
La première méthode que nous allons examiner est .prettify()
, qui présente le fichier HTML sous forme de structure de données imbriquée.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4.35
Qu'est-ce que Beautiful Soup ?
Glissez pour afficher le menu
BeautifulSoup
est une bibliothèque Python qui offre des fonctionnalités avancées pour l'analyse des pages HTML. Dans la section précédente, vous avez travaillé avec HTML sous forme de chaîne de caractères, ce qui imposait des limitations importantes.
Pour installer BeautifulSoup
, exécutez la commande suivante dans votre terminal ou invite de commandes :
pip install beautifulsoup4
;- Pour commencer, importez
BeautifulSoup
depuisbs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Cette bibliothèque est conçue pour travailler avec des fichiers HTML et ne gère pas les liens. Cependant, vous savez déjà comment gérer cela en utilisant urlopen de urllib.requests
. Pour lancer l'analyse, il est nécessaire de fournir deux paramètres à la fonction BeautifulSoup
: le premier est le fichier HTML, et le second est l'analyseur (nous utiliserons l'analyseur intégré html.parser
). Cette opération créera un objet BeautifulSoup
. Par exemple, ouvrons et lisons une page web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
La première méthode que nous allons examiner est .prettify()
, qui présente le fichier HTML sous forme de structure de données imbriquée.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Merci pour vos commentaires !