Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Du er allerede kjent med det grunnleggende om **HTML**, så nå kan du utforske den første metoden for å arbeide med det i **Python**.


Et av modulene du kan bruke for å håndtere __HTML__-filer i __Python__ er `urllib.request`. Du må `import` __metoden__ `urlopen` for å få tilgang til nettsider. Oppgi ganske enkelt __URL-en__ til siden du ønsker å åpne som en __parameter__ til denne __metoden__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Som vist i eksemplet ovenfor, er resultatet et `http.client.HTTPResponse`-objekt, som ikke er ønsket utdata. For å hente ut **HTML**-strukturen, bruk metodene `.read()` og `.decode('utf-8')` på objektet du mottok.


Delen `decode("utf-8")` brukes for å konvertere rå binærdata til en lesbar tekststreng, forutsatt at nettsidens innhold er kodet med **UTF-8**. Denne konverteringen gjør det mulig å arbeide med tekstdataen som finnes på nettsiden på en meningsfull måte, for eksempel ved å analysere eller tolke innholdet.

Definisjon

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Som et resultat av å bruke metodene `.read()` og `.decode()`, får du en streng. Denne strengen inneholder __HTML__-strukturen på en godt formatert måte, noe som gjør den lett å lese og gir deg mulighet til å bruke strengmetoder på den.

Hvis ikke `.decode()`-metoden ble brukt, ville du motta et __bytes__-objekt med hele __HTML__-siden representert som én streng med spesifikke tegn. Prøv gjerne å eksperimentere med dette!

Lær å hente verdifulle data fra nettsteder automatisk. Bli ekspert på teknikker for effektiv informasjonsinnsamling, slik at du kan utføre grundige analyser, ta datadrevne beslutninger og avdekke nye innsikter fra det enorme havet av nettbasert informasjon.

Utforsk strukturen til en HTML-fil, lær hvordan du laster den effektivt, og få praktiske ferdigheter i å arbeide med dataene den inneholder.

Utforsk grunnleggende bruk av Beautiful Soup for å hente ut data fra HTML-dokumenter. Lær hvordan du navigerer i strukturen til HTML, får tilgang til spesifikke elementer og arbeider med deres barnelementer for å bygge et solid grunnlag i webskraping.

Bli ekspert på å arbeide med elementattributter og innhold ved hjelp av Beautiful Soup. Tilegn deg ferdigheter til å hente ut spesifikk informasjon, søke etter elementer basert på attributtverdier, og bruke avanserte teknikker for effektiv parsing og analyse av HTML-data.

Åpning av HTML-fil