Kursinhalt
Web Scraping mit Python
Web Scraping mit Python
Anwenden von String-Methoden
Was kannst du mit der gelesenen Seite machen? Es ist ein String, sodass du jede String-Methode verwenden kannst. Zum Beispiel kannst du die .find()
-Methode einsetzen, die den Index des ersten Vorkommens eines bestimmten Elements zurückgibt. Beispielsweise kannst du den Seitentitel ermitteln, indem du die Indizes des ersten öffnenden und schließenden Tags identifizierst. Wir berücksichtigen auch die Länge des schließenden Tags.
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Wie oben im Beispiel gezeigt, wurden zwei Variablen, start
und finish
, erstellt. Die Variable start
enthält den Index des ersten Elements innerhalb des ersten Vorkommens des <title>
-Elements. Hingegen enthält die Variable finish
den Index des Zeichens, das unmittelbar nach dem schließenden </title>
-Tag folgt. Die .find()
-Methode selbst lieferte den ursprünglichen Index des schließenden Tags, daher haben wir die Länge des Tags hinzugefügt, um den Index des letzten Elements zu erhalten.
Danke für Ihr Feedback!