Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Anwenden von String-Methoden | Kennenlernen von HTML
Web Scraping mit Python
course content

Kursinhalt

Web Scraping mit Python

Web Scraping mit Python

1. Kennenlernen von HTML
2. HTML mit Beautiful Soup Entschlüsseln
3. Arbeiten mit Elementattributen in Beautiful Soup

book
Anwenden von String-Methoden

Was kannst du mit der gelesenen Seite machen? Es ist ein String, sodass du jede String-Methode verwenden kannst. Zum Beispiel kannst du die .find()-Methode einsetzen, die den Index des ersten Vorkommens eines bestimmten Elements zurückgibt. Beispielsweise kannst du den Seitentitel ermitteln, indem du die Indizes des ersten öffnenden und schließenden Tags identifizierst. Wir berücksichtigen auch die Länge des schließenden Tags.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Wie oben im Beispiel gezeigt, wurden zwei Variablen, start und finish, erstellt. Die Variable start enthält den Index des ersten Elements innerhalb des ersten Vorkommens des <title>-Elements. Hingegen enthält die Variable finish den Index des Zeichens, das unmittelbar nach dem schließenden </title>-Tag folgt. Die .find()-Methode selbst lieferte den ursprünglichen Index des schließenden Tags, daher haben wir die Länge des Tags hinzugefügt, um den Index des letzten Elements zu erhalten.

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 10
We're sorry to hear that something went wrong. What happened?
some-alt