Scorri per mostrare il menu

Hai già familiarità con le basi di HTML, quindi ora esplora il primo metodo per lavorare con esso in Python.

Uno dei moduli che puoi utilizzare per gestire i file HTML in Python è urllib.request. È necessario import il metodo urlopen per accedere alle pagine web. Basta fornire l'URL della pagina che si desidera aprire come parametro di questo metodo.


              1234567
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Come mostrato nell'esempio sopra, il risultato è un oggetto http.client.HTTPResponse, che non è l'output desiderato. Per ottenere la struttura HTML, applicare i metodi .read() e .decode('utf-8') all'oggetto ricevuto.

Definizione

La parte decode("utf-8") viene utilizzata per convertire i dati binari grezzi in una stringa leggibile dall'uomo, assumendo che il contenuto della pagina web sia codificato utilizzando UTF-8. Questa conversione consente di lavorare in modo significativo con i dati testuali contenuti nella pagina web, ad esempio per analizzarne o esaminarne il contenuto.


              1234567891011
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Come risultato dell'applicazione dei metodi .read() e .decode(), si ottiene una stringa. Questa stringa contiene la struttura HTML in modo ben formattato, rendendola facilmente leggibile e permettendo di applicare i metodi delle stringhe.

Se il metodo .decode() non venisse applicato, si riceverebbe un oggetto bytes con l'intera pagina HTML rappresentata come un'unica stringa con caratteri specifici. Sentiti libero di sperimentare!

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 8

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Apertura del File HTML

Hai già familiarità con le basi di HTML, quindi ora esplora il primo metodo per lavorare con esso in Python.


              1234567
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Definizione


              1234567891011
            
# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 8