Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Du är redan bekant med grunderna i **HTML**, så nu kan du utforska den första metoden för att arbeta med det i **Python**.


Ett av de moduler du kan använda för att hantera __HTML__-filer i __Python__ är `urllib.request`. Du behöver `import`-era __metoden__ `urlopen` för att få åtkomst till webbsidor. Ange helt enkelt __URL__:en till sidan du vill öppna som en __parameter__ till denna __metod__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Som visas i exemplet ovan är resultatet ett `http.client.HTTPResponse`-objekt, vilket inte är det önskade resultatet. För att erhålla **HTML**-strukturen, använd metoderna `.read()` och `.decode('utf-8')` på det objekt du fått.

Delen `decode("utf-8")` används för att konvertera rå binärdata till en läsbar sträng, under antagandet att webbsidans innehåll är kodad med **UTF-8**. Denna konvertering gör det möjligt att arbeta med textdata som finns på webbsidan på ett meningsfullt sätt, såsom att tolka eller analysera dess innehåll.

Definition

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Som ett resultat av att använda metoderna `.read()` och `.decode()` erhålls en sträng. Denna sträng innehåller __HTML__-strukturen på ett välformaterat sätt, vilket gör den lättläst och möjliggör användning av strängmetoder på den.

Om metoden `.decode()` inte skulle användas, skulle du få ett __bytes__-objekt med hela __HTML__-sidan representerad som en enda sträng med specifika tecken. Testa gärna detta själv!

Lär dig att automatiskt extrahera värdefull data från webbplatser. Behärska tekniker för att samla in information effektivt, vilket möjliggör djupgående analys, datadrivna beslut och nya insikter från det stora utbudet av onlineinformation.

Utforska strukturen hos en HTML-fil, lär dig hur du laddar den effektivt och få praktiska färdigheter i att arbeta med dess data.

Utforska grunderna i Beautiful Soup för att extrahera data från HTML-dokument. Lär dig att navigera i HTML-strukturen, komma åt specifika element och arbeta med deras underordnade element för att bygga en stark grund inom web scraping.

Behärska arbetet med elementattribut och innehåll med Beautiful Soup. Få färdigheter för att extrahera specifik information, söka efter element med attributvärden och använda avancerade tekniker för att effektivt tolka och analysera HTML-data.

Öppna HTML-fil