Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Merkkijonomenetelmien Soveltaminen | Getting Acquainted with HTML
Verkkosivujen Tietojen Keruu Pythonilla

bookMerkkijonomenetelmien Soveltaminen

Mitä voit tehdä luetulla sivulla? Se on merkkijono, joten voit hyödyntää mitä tahansa merkkijonometodia. Voit esimerkiksi käyttää .find()-metodia, joka palauttaa tietyn alkion ensimmäisen esiintymän indeksin. Voit esimerkiksi paikantaa sivun otsikon tunnistamalla ensimmäisten avaus- ja sulkutunnisteiden indeksit. Otamme myös huomioon sulkutunnisteen pituuden.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Kuten yllä olevassa esimerkissä on esitetty, luotiin kaksi muuttujaa, start ja finish. Muuttuja start sisältää ensimmäisen alkion indeksin <title>-elementin ensimmäisessä esiintymässä. Samaan aikaan muuttuja finish sisältää indeksin merkille, joka on välittömästi sulkevan </title>-tunnisteen jälkeen. .find()-metodi itsessään antoi sulkevan tunnisteen alkuindeksin, joten lisäsimme tunnisteen pituuden saadaksemme viimeisen alkion indeksin.

Note
Opiskele lisää

Listan viipalointi sulkee pois viimeisen alkion, minkä vuoksi etsimme sulkevan tunnisteen jälkeistä seuraavaa merkkiä.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 10

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

How can I extract other elements from the HTML using similar techniques?

Awesome!

Completion rate improved to 4.35

bookMerkkijonomenetelmien Soveltaminen

Pyyhkäise näyttääksesi valikon

Mitä voit tehdä luetulla sivulla? Se on merkkijono, joten voit hyödyntää mitä tahansa merkkijonometodia. Voit esimerkiksi käyttää .find()-metodia, joka palauttaa tietyn alkion ensimmäisen esiintymän indeksin. Voit esimerkiksi paikantaa sivun otsikon tunnistamalla ensimmäisten avaus- ja sulkutunnisteiden indeksit. Otamme myös huomioon sulkutunnisteen pituuden.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Kuten yllä olevassa esimerkissä on esitetty, luotiin kaksi muuttujaa, start ja finish. Muuttuja start sisältää ensimmäisen alkion indeksin <title>-elementin ensimmäisessä esiintymässä. Samaan aikaan muuttuja finish sisältää indeksin merkille, joka on välittömästi sulkevan </title>-tunnisteen jälkeen. .find()-metodi itsessään antoi sulkevan tunnisteen alkuindeksin, joten lisäsimme tunnisteen pituuden saadaksemme viimeisen alkion indeksin.

Note
Opiskele lisää

Listan viipalointi sulkee pois viimeisen alkion, minkä vuoksi etsimme sulkevan tunnisteen jälkeistä seuraavaa merkkiä.

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 10
some-alt