Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Använda Strängmetoder | Bekanta Sig Med HTML
Web Scraping med Python

bookAnvända Strängmetoder

Vad kan du göra med sidan du har läst in? Eftersom det är en sträng kan du använda alla strängmetoder. Till exempel returnerar metoden .find() indexet för den första förekomsten av ett specifikt element. Du kan använda den för att lokalisera sidans titel genom att hitta indexen för de öppnande och stängande taggarna och ta hänsyn till längden på den stängande taggen.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som visas i exemplet ovan skapades två variabler, start och finish. Variabeln start lagrar indexet för det första tecknet inom den öppnande <title>-taggen, medan variabeln finish lagrar indexet för tecknet precis efter den stängande </title>-taggen. Metoden .find() returnerar startindexet för den stängande taggen, så taggens längd läggs till för att få den slutliga positionen.

Note
Läs vidare

Listuppdelning utesluter det sista elementet, vilket är anledningen till att nästa tecken efter sluttaggen används.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.35

bookAnvända Strängmetoder

Svep för att visa menyn

Vad kan du göra med sidan du har läst in? Eftersom det är en sträng kan du använda alla strängmetoder. Till exempel returnerar metoden .find() indexet för den första förekomsten av ett specifikt element. Du kan använda den för att lokalisera sidans titel genom att hitta indexen för de öppnande och stängande taggarna och ta hänsyn till längden på den stängande taggen.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som visas i exemplet ovan skapades två variabler, start och finish. Variabeln start lagrar indexet för det första tecknet inom den öppnande <title>-taggen, medan variabeln finish lagrar indexet för tecknet precis efter den stängande </title>-taggen. Metoden .find() returnerar startindexet för den stängande taggen, så taggens längd läggs till för att få den slutliga positionen.

Note
Läs vidare

Listuppdelning utesluter det sista elementet, vilket är anledningen till att nästa tecken efter sluttaggen används.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10
some-alt