Toepassen van Stringmethoden
Wat kun je doen met de ingelezen pagina? Het is een string, dus je kunt elke stringmethode gebruiken. Bijvoorbeeld, je kunt de .find()
-methode toepassen, die de index retourneert van het eerste voorkomen van een specifiek element. Zo kun je de paginatitel lokaliseren door de indexen van de eerste openings- en sluitende tags te identificeren. We houden ook rekening met de lengte van de sluitende tag.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Zoals aangetoond in het bovenstaande voorbeeld zijn er twee variabelen aangemaakt: start
en finish
. De variabele start
bevat de index van het eerste element binnen het eerste voorkomen van het <title>
-element. De variabele finish
bevat de index van het teken direct na de sluitende </title>
-tag. De .find()
-methode leverde zelf de beginindex van de sluitende tag, dus hebben we de lengte van de tag toegevoegd om de index van het laatste element te verkrijgen.
Lijst-slicing sluit het laatste element uit, waardoor we het volgende teken na de sluitende tag vinden.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain how the .find() method works in more detail?
What other string methods can I use to process the web page content?
How can I extract other elements from the HTML using similar techniques?
Awesome!
Completion rate improved to 4.35
Toepassen van Stringmethoden
Veeg om het menu te tonen
Wat kun je doen met de ingelezen pagina? Het is een string, dus je kunt elke stringmethode gebruiken. Bijvoorbeeld, je kunt de .find()
-methode toepassen, die de index retourneert van het eerste voorkomen van een specifiek element. Zo kun je de paginatitel lokaliseren door de indexen van de eerste openings- en sluitende tags te identificeren. We houden ook rekening met de lengte van de sluitende tag.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Zoals aangetoond in het bovenstaande voorbeeld zijn er twee variabelen aangemaakt: start
en finish
. De variabele start
bevat de index van het eerste element binnen het eerste voorkomen van het <title>
-element. De variabele finish
bevat de index van het teken direct na de sluitende </title>
-tag. De .find()
-methode leverde zelf de beginindex van de sluitende tag, dus hebben we de lengte van de tag toegevoegd om de index van het laatste element te verkrijgen.
Lijst-slicing sluit het laatste element uit, waardoor we het volgende teken na de sluitende tag vinden.
Bedankt voor je feedback!