Kursinhalt
Web Scraping mit Python
Web Scraping mit Python
3. Arbeiten mit Elementattributen in Beautiful Soup
Attribute und Inhalte Mehrerer Elemente
Alle in dem vorherigen Kapitel behandelten Methoden können auf alle Elemente mit einem bestimmten Tag angewendet werden (d.h., auf das Ergebnis der .find_all()
Methode). Es ist jedoch wichtig zu beachten, dass das Ergebnis der Anwendung der .find_all()
Methode eine Liste ist, sodass Sie Attribute und Methoden für jedes einzelne Element verwenden müssen. Wie zuvor sollten Sie auch in diesem Kontext eine for
-Schleife einsetzen. Zum Beispiel, rufen wir alle Attribute aller <div>
-Elemente ab.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for div in soup.find_all("div"): print(div.attrs)
Der gleiche Ansatz gilt auch für das Extrahieren von Text. Zum Beispiel, holen wir uns den gesamten Text aller <p>
-Elemente.
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for p in soup.find_all("p"): print(p.get_text())
War alles klar?
Danke für Ihr Feedback!
Abschnitt 3. Kapitel 3