Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Toepassen van Stringmethoden | Kennismaken met HTML
Web Scraping met Python

bookToepassen van Stringmethoden

Wat kun je doen met de ingelezen pagina? Het is een string, dus je kunt elke stringmethode gebruiken. Bijvoorbeeld, je kunt de .find()-methode toepassen, die de index retourneert van het eerste voorkomen van een specifiek element. Zo kun je de paginatitel lokaliseren door de indexen van de eerste openings- en sluitende tags te identificeren. We houden ook rekening met de lengte van de sluitende tag.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Zoals aangetoond in het bovenstaande voorbeeld zijn er twee variabelen aangemaakt: start en finish. De variabele start bevat de index van het eerste element binnen het eerste voorkomen van het <title>-element. De variabele finish bevat de index van het teken direct na de sluitende </title>-tag. De .find()-methode leverde zelf de beginindex van de sluitende tag, dus hebben we de lengte van de tag toegevoegd om de index van het laatste element te verkrijgen.

Note
Meer Bestuderen

Lijst-slicing sluit het laatste element uit, waardoor we het volgende teken na de sluitende tag vinden.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 10

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

How can I extract other elements from the HTML using similar techniques?

Awesome!

Completion rate improved to 4.35

bookToepassen van Stringmethoden

Veeg om het menu te tonen

Wat kun je doen met de ingelezen pagina? Het is een string, dus je kunt elke stringmethode gebruiken. Bijvoorbeeld, je kunt de .find()-methode toepassen, die de index retourneert van het eerste voorkomen van een specifiek element. Zo kun je de paginatitel lokaliseren door de indexen van de eerste openings- en sluitende tags te identificeren. We houden ook rekening met de lengte van de sluitende tag.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Zoals aangetoond in het bovenstaande voorbeeld zijn er twee variabelen aangemaakt: start en finish. De variabele start bevat de index van het eerste element binnen het eerste voorkomen van het <title>-element. De variabele finish bevat de index van het teken direct na de sluitende </title>-tag. De .find()-methode leverde zelf de beginindex van de sluitende tag, dus hebben we de lengte van de tag toegevoegd om de index van het laatste element te verkrijgen.

Note
Meer Bestuderen

Lijst-slicing sluit het laatste element uit, waardoor we het volgende teken na de sluitende tag vinden.

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 10
some-alt