Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Apertura del File HTML | Introduzione all'HTML
Web Scraping con Python

bookApertura del File HTML

Dopo aver acquisito familiarità con gli aspetti fondamentali di HTML, esploriamo il metodo iniziale per lavorarci in Python.

Uno dei moduli che puoi utilizzare per gestire file HTML in Python è urllib.request. È necessario import il metodo urlopen per accedere alle pagine web. Basta fornire l'URL della pagina che si desidera aprire come parametro di questo metodo.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Come mostrato nell'esempio sopra, si riceve un oggetto http.client.HTTPResponse come risultato, che differisce da quanto previsto. Per ottenere la struttura HTML, è necessario applicare i metodi .read() e .decode("utf-8") all'oggetto acquisito.

Note
Definizione

La parte decode("utf-8") viene utilizzata per convertire i dati binari grezzi in una stringa leggibile dall'uomo, assumendo che il contenuto della pagina web sia codificato utilizzando UTF-8. Questa conversione consente di lavorare in modo significativo con i dati testuali contenuti nella pagina web, ad esempio per analizzarne o esaminarne il contenuto.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Come risultato dell'applicazione dei metodi .read() e .decode(), si ottiene una stringa. Questa stringa contiene la struttura HTML in modo ben formattato, rendendola facilmente leggibile e permettendo di applicarvi metodi per le stringhe.

Se il metodo .decode() non venisse applicato, si riceverebbe un oggetto di tipo bytes con l'intera pagina HTML rappresentata come un'unica stringa con caratteri specifici. Sentiti libero di sperimentare con esso!

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 8

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookApertura del File HTML

Scorri per mostrare il menu

Dopo aver acquisito familiarità con gli aspetti fondamentali di HTML, esploriamo il metodo iniziale per lavorarci in Python.

Uno dei moduli che puoi utilizzare per gestire file HTML in Python è urllib.request. È necessario import il metodo urlopen per accedere alle pagine web. Basta fornire l'URL della pagina che si desidera aprire come parametro di questo metodo.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Come mostrato nell'esempio sopra, si riceve un oggetto http.client.HTTPResponse come risultato, che differisce da quanto previsto. Per ottenere la struttura HTML, è necessario applicare i metodi .read() e .decode("utf-8") all'oggetto acquisito.

Note
Definizione

La parte decode("utf-8") viene utilizzata per convertire i dati binari grezzi in una stringa leggibile dall'uomo, assumendo che il contenuto della pagina web sia codificato utilizzando UTF-8. Questa conversione consente di lavorare in modo significativo con i dati testuali contenuti nella pagina web, ad esempio per analizzarne o esaminarne il contenuto.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Come risultato dell'applicazione dei metodi .read() e .decode(), si ottiene una stringa. Questa stringa contiene la struttura HTML in modo ben formattato, rendendola facilmente leggibile e permettendo di applicarvi metodi per le stringhe.

Se il metodo .decode() non venisse applicato, si riceverebbe un oggetto di tipo bytes con l'intera pagina HTML rappresentata come un'unica stringa con caratteri specifici. Sentiti libero di sperimentare con esso!

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 1. Capitolo 8
some-alt