Kursinhalt
Automatisierung der Datenerfassung aus Webquellen
Das Gewünschte Attribut Extrahieren
In diesem Kapitel werden wir einige relevante Statistiken von einer Webseite extrahieren. Dazu benötigen Sie ein gewisses Wissen über die Struktur der Ziel-HTML-Webseite.
Eine Webseite besteht typischerweise aus verschiedenen Arten von Inhalten, einschließlich Text, Bildern und Multimedia. Diese Elemente sind alle in HTML (HyperText Markup Language) Tags enthalten, die die Struktur und das Layout des Inhalts auf der Seite definieren.
Die grundlegenden Bausteine einer HTML-Seite sind Elemente, die durch Tags dargestellt werden. Diese Tags werden verwendet, um den Inhalt der Seite zu markieren und dem Webbrowser anzuzeigen, wie er dargestellt werden soll. Einige gängige HTML-Elemente sind Überschriften, Absätze, Listen, Links und Bilder.
Zusätzlich zu diesen Kernelementen kann eine Webseite auch andere Arten von Inhalten enthalten, wie CSS (Cascading Style Sheets) und JavaScript, die verwendet werden, um das Erscheinungsbild und das Verhalten der Seite zu steuern.
Insgesamt ist eine HTML-Seite eine Kombination aus Text, Bildern und anderen Inhalten, die alle mit HTML-Tags organisiert und strukturiert sind und möglicherweise mit CSS und JavaScript erweitert werden.
Swipe to start coding
- Verwenden Sie die
BeautifulSoup
-Bibliothek, um den Inhalt der FAO-Website zu parsen. - Holen Sie sich den Inhalt des ersten div-Elements mit der folgenden Klasse:
"col-md-4 country"
. - Holen Sie sich den Inhalt des unmittelbaren Geschwisters des Tags, das wir zuvor gefunden haben.
Lösung
Danke für Ihr Feedback!