Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Du er allerede bekendt med grundlæggende **HTML**, så nu skal du udforske den første metode til at arbejde med det i **Python**.


Et af de moduler, du kan anvende til at håndtere __HTML__-filer i __Python__, er `urllib.request`. Du skal `import` __metoden__ `urlopen` for at få adgang til websider. Angiv blot __URL'en__ til den side, du ønsker at åbne, som en __parameter__ til denne __metode__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Som vist i eksemplet ovenfor, er resultatet et `http.client.HTTPResponse`-objekt, hvilket ikke er det ønskede output. For at opnå **HTML**-strukturen skal du anvende metoderne `.read()` og `.decode('utf-8')` på det modtagne objekt.


Delen `decode("utf-8")` bruges til at konvertere de rå binære data til en læsbar streng, forudsat at websidens indhold er kodet med **UTF-8**. Denne konvertering gør det muligt at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

Definition

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Som resultat af at anvende metoderne `.read()` og `.decode()`, opnås en streng. Denne streng indeholder __HTML__-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis `.decode()`-metoden ikke blev anvendt, ville du modtage et __bytes__-objekt med hele __HTML__-siden repræsenteret som én enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Lær at udtrække værdifulde data fra hjemmesider automatisk. Behersk teknikker til effektiv informationsindsamling, hvilket muliggør dybdegående analyser, databaserede beslutninger og nye indsigter fra det enorme hav af online information.

Undersøg strukturen af en HTML-fil, lær at indlæse den effektivt, og opnå praktiske færdigheder i at arbejde med de data, den indeholder.

Udforsk grundlæggende funktioner i Beautiful Soup til udtræk af data fra HTML-dokumenter. Lær at navigere i HTML-strukturen, få adgang til specifikke elementer og arbejde med deres underordnede elementer for at opbygge et solidt fundament inden for web scraping.

Behersk arbejdet med elementattributter og indhold ved hjælp af Beautiful Soup. Opnå færdigheder i at udtrække specifikke oplysninger, søge efter elementer baseret på attributværdier og anvende avancerede teknikker til effektiv parsing og analyse af HTML-data.

Åbning af HTML-fil