Contenu du cours
Automatisation de la Collecte de Données à Partir de Sources Web
Automatisation de la Collecte de Données à Partir de Sources Web
Extraire l'Attribut Souhaité
Pour ce chapitre, nous allons extraire quelques statistiques pertinentes d'une page web. Pour ce faire, vous aurez besoin d'une certaine connaissance de la structure de la page HTML cible.
Une page web est généralement composée de plusieurs types de contenu différents, y compris du texte, des images et des multimédias. Ces éléments sont tous contenus dans des balises HTML (HyperText Markup Language), qui définissent la structure et la mise en page du contenu sur la page.
Les éléments de base d'une page HTML sont les éléments, qui sont représentés par des balises. Ces balises sont utilisées pour baliser le contenu de la page, indiquant au navigateur web comment il doit être affiché. Certains éléments HTML courants incluent les titres, les paragraphes, les listes, les liens et les images.
En plus de ces éléments de base, une page web peut également inclure d'autres types de contenu, tels que le CSS (Cascading Style Sheets) et le JavaScript, qui sont utilisés pour contrôler l'apparence et le comportement de la page.
Dans l'ensemble, une page HTML est une combinaison de texte, d'images et d'autres contenus, tous organisés et structurés à l'aide de balises HTML et potentiellement enrichis avec du CSS et du JavaScript.
Swipe to start coding
- Utilisez la bibliothèque
BeautifulSoup
pour analyser le contenu du site web de la FAO. - Obtenez le contenu du premier élément div avec la classe suivante :
"col-md-4 country"
. - Obtenez le contenu du frère immédiat de la balise que nous avons trouvée précédemment.
Solution
Merci pour vos commentaires !