Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Åbning af HTML-fil | Introduktion til HTML
Quizzes & Challenges
Quizzes
Challenges
/
Web Scraping med Python

bookÅbning af HTML-fil

Du er allerede bekendt med grundlæggende HTML, så nu skal du udforske den første metode til at arbejde med det i Python.

Et af de moduler, du kan anvende til at håndtere HTML-filer i Python, er urllib.request. Du skal import metoden urlopen for at få adgang til websider. Angiv blot URL'en til den side, du ønsker at åbne, som en parameter til denne metode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksemplet ovenfor, er resultatet et http.client.HTTPResponse-objekt, hvilket ikke er det ønskede output. For at opnå HTML-strukturen skal du anvende metoderne .read() og .decode('utf-8') på det modtagne objekt.

Note
Definition

Delen decode("utf-8") bruges til at konvertere de rå binære data til en læsbar streng, forudsat at websidens indhold er kodet med UTF-8. Denne konvertering gør det muligt at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som resultat af at anvende metoderne .read() og .decode(), opnås en streng. Denne streng indeholder HTML-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis .decode()-metoden ikke blev anvendt, ville du modtage et bytes-objekt med hele HTML-siden repræsenteret som én enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 8

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What other methods can I use to work with HTML in Python?

Can you explain why we need to use .decode('utf-8')?

What can I do with the HTML string once I have it?

Awesome!

Completion rate improved to 4.35

bookÅbning af HTML-fil

Stryg for at vise menuen

Du er allerede bekendt med grundlæggende HTML, så nu skal du udforske den første metode til at arbejde med det i Python.

Et af de moduler, du kan anvende til at håndtere HTML-filer i Python, er urllib.request. Du skal import metoden urlopen for at få adgang til websider. Angiv blot URL'en til den side, du ønsker at åbne, som en parameter til denne metode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksemplet ovenfor, er resultatet et http.client.HTTPResponse-objekt, hvilket ikke er det ønskede output. For at opnå HTML-strukturen skal du anvende metoderne .read() og .decode('utf-8') på det modtagne objekt.

Note
Definition

Delen decode("utf-8") bruges til at konvertere de rå binære data til en læsbar streng, forudsat at websidens indhold er kodet med UTF-8. Denne konvertering gør det muligt at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som resultat af at anvende metoderne .read() og .decode(), opnås en streng. Denne streng indeholder HTML-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis .decode()-metoden ikke blev anvendt, ville du modtage et bytes-objekt med hele HTML-siden repræsenteret som én enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 8
some-alt