Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Åbning af HTML-fil | Introduktion til HTML
Web Scraping med Python

bookÅbning af HTML-fil

Når du er bekendt med de grundlæggende aspekter af HTML, kan vi udforske den indledende metode til at arbejde med det i Python.

Et af de moduler, du kan anvende til at håndtere HTML-filer i Python, er urllib.request. Det er nødvendigt at importere metoden urlopen for at få adgang til websider. Angiv blot URL'en på den side, du ønsker at åbne, som en parameter til denne metode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksemplet ovenfor, modtager du et http.client.HTTPResponse-objekt som resultat, hvilket adskiller sig fra det, vi ønskede. For at opnå HTML-strukturen skal du anvende metoderne .read() og .decode("utf-8") på det objekt, du har fået.

Note
Definition

Delen decode("utf-8") bruges til at konvertere de rå binære data til en læsbar streng, forudsat at websidens indhold er kodet med UTF-8. Denne konvertering gør det muligt for os at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som resultat af at anvende metoderne .read() og .decode(), opnås en streng. Denne streng indeholder HTML-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis .decode()-metoden ikke blev anvendt, ville du modtage et bytes-objekt med hele HTML-siden repræsenteret som en enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 8

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookÅbning af HTML-fil

Stryg for at vise menuen

Når du er bekendt med de grundlæggende aspekter af HTML, kan vi udforske den indledende metode til at arbejde med det i Python.

Et af de moduler, du kan anvende til at håndtere HTML-filer i Python, er urllib.request. Det er nødvendigt at importere metoden urlopen for at få adgang til websider. Angiv blot URL'en på den side, du ønsker at åbne, som en parameter til denne metode.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksemplet ovenfor, modtager du et http.client.HTTPResponse-objekt som resultat, hvilket adskiller sig fra det, vi ønskede. For at opnå HTML-strukturen skal du anvende metoderne .read() og .decode("utf-8") på det objekt, du har fået.

Note
Definition

Delen decode("utf-8") bruges til at konvertere de rå binære data til en læsbar streng, forudsat at websidens indhold er kodet med UTF-8. Denne konvertering gør det muligt for os at arbejde meningsfuldt med tekstdataene fra websiden, f.eks. ved at analysere eller fortolke indholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som resultat af at anvende metoderne .read() og .decode(), opnås en streng. Denne streng indeholder HTML-strukturen i et velstruktureret format, hvilket gør den letlæselig og muliggør anvendelse af strengmetoder på den.

Hvis .decode()-metoden ikke blev anvendt, ville du modtage et bytes-objekt med hele HTML-siden repræsenteret som en enkelt streng med specifikke tegn. Prøv gerne at eksperimentere med det!

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 1. Kapitel 8
some-alt