Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Applicazione dei Metodi delle Stringhe | Introduzione all'HTML
Web Scraping con Python

bookApplicazione dei Metodi delle Stringhe

Cosa puoi fare con la pagina letta? È una stringa, quindi puoi utilizzare qualsiasi metodo delle stringhe. Ad esempio, puoi usare il metodo .find(), che restituisce l'indice della prima occorrenza di un elemento specifico. Ad esempio, puoi individuare il titolo della pagina identificando gli indici del primo tag di apertura e di chiusura. Considereremo anche la lunghezza del tag di chiusura.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Come mostrato nell'esempio sopra, sono state create due variabili, start e finish. La variabile start contiene l'indice del primo elemento all'interno della prima occorrenza dell'elemento <title>. Nel frattempo, la variabile finish contiene l'indice del carattere immediatamente successivo al tag di chiusura </title>. Il metodo .find() ha fornito l'indice iniziale del tag di chiusura, quindi abbiamo aggiunto la lunghezza del tag per ottenere l'indice dell'ultimo elemento.

Note
Approfondisci

Il slicing delle liste esclude l'ultimo elemento, motivo per cui si cerca il carattere successivo dopo il tag di chiusura.

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 10

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Awesome!

Completion rate improved to 4.35

bookApplicazione dei Metodi delle Stringhe

Scorri per mostrare il menu

Cosa puoi fare con la pagina letta? È una stringa, quindi puoi utilizzare qualsiasi metodo delle stringhe. Ad esempio, puoi usare il metodo .find(), che restituisce l'indice della prima occorrenza di un elemento specifico. Ad esempio, puoi individuare il titolo della pagina identificando gli indici del primo tag di apertura e di chiusura. Considereremo anche la lunghezza del tag di chiusura.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Come mostrato nell'esempio sopra, sono state create due variabili, start e finish. La variabile start contiene l'indice del primo elemento all'interno della prima occorrenza dell'elemento <title>. Nel frattempo, la variabile finish contiene l'indice del carattere immediatamente successivo al tag di chiusura </title>. Il metodo .find() ha fornito l'indice iniziale del tag di chiusura, quindi abbiamo aggiunto la lunghezza del tag per ottenere l'indice dell'ultimo elemento.

Note
Approfondisci

Il slicing delle liste esclude l'ultimo elemento, motivo per cui si cerca il carattere successivo dopo il tag di chiusura.

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 10
some-alt