Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Använda Strängmetoder | Introduktion till HTML
Web Scraping med Python

bookAnvända Strängmetoder

Vad kan du göra med den lästa sidan? Det är en sträng, så du kan använda alla strängmetoder. Till exempel kan du använda metoden .find(), som returnerar indexet för den första förekomsten av ett specifikt element. Du kan till exempel hitta sidans titel genom att identifiera indexen för de första öppnings- och stängningstagarna. Vi tar även hänsyn till längden på stängningstaggen.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som visas i exemplet ovan skapades två variabler, start och finish. Variabeln start innehåller indexet för det första elementet inom den första förekomsten av <title>-elementet. Samtidigt innehåller variabeln finish indexet för tecknet omedelbart efter den avslutande </title>-taggen. Metoden .find() gav i sig det initiala indexet för stängningstaggen, så vi lade till längden på taggen för att få indexet för det sista elementet.

Note
Fördjupa dig

Listuppdelning utesluter det sista elementet, vilket är anledningen till att vi letar efter nästa tecken efter sluttaggen.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain how the .find() method works in more detail?

What other string methods can I use to process the web page content?

How can I extract other elements from the HTML using similar techniques?

Awesome!

Completion rate improved to 4.35

bookAnvända Strängmetoder

Svep för att visa menyn

Vad kan du göra med den lästa sidan? Det är en sträng, så du kan använda alla strängmetoder. Till exempel kan du använda metoden .find(), som returnerar indexet för den första förekomsten av ett specifikt element. Du kan till exempel hitta sidans titel genom att identifiera indexen för de första öppnings- och stängningstagarna. Vi tar även hänsyn till längden på stängningstaggen.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Som visas i exemplet ovan skapades två variabler, start och finish. Variabeln start innehåller indexet för det första elementet inom den första förekomsten av <title>-elementet. Samtidigt innehåller variabeln finish indexet för tecknet omedelbart efter den avslutande </title>-taggen. Metoden .find() gav i sig det initiala indexet för stängningstaggen, så vi lade till längden på taggen för att få indexet för det sista elementet.

Note
Fördjupa dig

Listuppdelning utesluter det sista elementet, vilket är anledningen till att vi letar efter nästa tecken efter sluttaggen.

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 10
some-alt