Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Öppna HTML-fil | Introduktion till HTML
Web Scraping med Python

bookÖppna HTML-fil

Du är bekant med de grundläggande aspekterna av HTML, låt oss utforska den första metoden för att arbeta med det i Python.

Ett av de moduler du kan använda för att hantera HTML-filer i Python är urllib.request. Du behöver import-era metoden urlopen för att få åtkomst till webbsidor. Ange helt enkelt URL:en till sidan du vill öppna som en parameter till denna metod.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som visas i exemplet ovan får du ett http.client.HTTPResponse-objekt som resultat, vilket skiljer sig från vad vi avsåg. För att erhålla HTML-strukturen bör du använda metoderna .read() och .decode("utf-8") på det objekt du har hämtat.

Note
Definition

Delen decode("utf-8") används för att konvertera rå binärdata till en läsbar sträng, förutsatt att webbsidans innehåll är kodad med UTF-8. Denna konvertering gör det möjligt att arbeta med textdata från webbsidan på ett meningsfullt sätt, såsom att tolka eller analysera dess innehåll.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som ett resultat av att använda metoderna .read() och .decode() erhålls en sträng. Denna sträng innehåller HTML-strukturen på ett välformaterat sätt, vilket gör den lättläst och möjliggör användning av strängmetoder på den.

Om metoden .decode() inte hade använts, skulle du få ett bytes-objekt med hela HTML-sidan representerad som en enda sträng med specifika tecken. Prova gärna själv!

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 8

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookÖppna HTML-fil

Svep för att visa menyn

Du är bekant med de grundläggande aspekterna av HTML, låt oss utforska den första metoden för att arbeta med det i Python.

Ett av de moduler du kan använda för att hantera HTML-filer i Python är urllib.request. Du behöver import-era metoden urlopen för att få åtkomst till webbsidor. Ange helt enkelt URL:en till sidan du vill öppna som en parameter till denna metod.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som visas i exemplet ovan får du ett http.client.HTTPResponse-objekt som resultat, vilket skiljer sig från vad vi avsåg. För att erhålla HTML-strukturen bör du använda metoderna .read() och .decode("utf-8") på det objekt du har hämtat.

Note
Definition

Delen decode("utf-8") används för att konvertera rå binärdata till en läsbar sträng, förutsatt att webbsidans innehåll är kodad med UTF-8. Denna konvertering gör det möjligt att arbeta med textdata från webbsidan på ett meningsfullt sätt, såsom att tolka eller analysera dess innehåll.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som ett resultat av att använda metoderna .read() och .decode() erhålls en sträng. Denna sträng innehåller HTML-strukturen på ett välformaterat sätt, vilket gör den lättläst och möjliggör användning av strängmetoder på den.

Om metoden .decode() inte hade använts, skulle du få ett bytes-objekt med hela HTML-sidan representerad som en enda sträng med specifika tecken. Prova gärna själv!

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 8
some-alt