Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Åpning av HTML-fil | Bli Kjent med HTML
Webskraping med Python

bookÅpning av HTML-fil

Du er kjent med de grunnleggende aspektene ved HTML, la oss utforske den første metoden for å arbeide med det i Python.

Et av modulene du kan bruke for å håndtere HTML-filer i Python er urllib.request. Du må import metoden urlopen for å få tilgang til nettsider. Oppgi ganske enkelt URL-en til siden du ønsker å åpne som en parameter til denne metoden.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksempelet ovenfor, mottar du et http.client.HTTPResponse-objekt som resultat, noe som er annerledes enn det vi ønsket. For å hente ut HTML-strukturen, bør du bruke metodene .read() og .decode("utf-8") på objektet du har fått.

Note
Definisjon

Delen decode("utf-8") brukes for å konvertere rå binærdata til en lesbar tekststreng, forutsatt at nettsidens innhold er kodet med UTF-8. Denne konverteringen gjør det mulig å arbeide med tekstdataen som finnes på nettsiden på en meningsfull måte, for eksempel ved å analysere eller tolke innholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som et resultat av å bruke metodene .read() og .decode(), får du en streng. Denne strengen inneholder HTML-strukturen på en godt formatert måte, noe som gjør den lett å lese og lar deg bruke strengmetoder på den.

Hvis ikke .decode()-metoden ble brukt, ville du motta et bytes-objekt med hele HTML-siden representert som én streng med spesifikke tegn. Prøv gjerne å eksperimentere med dette!

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 8

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Suggested prompts:

What happens if I don't use the .decode() method?

Can you explain the difference between bytes and string in this context?

How can I extract specific information from the HTML string?

Awesome!

Completion rate improved to 4.35

bookÅpning av HTML-fil

Sveip for å vise menyen

Du er kjent med de grunnleggende aspektene ved HTML, la oss utforske den første metoden for å arbeide med det i Python.

Et av modulene du kan bruke for å håndtere HTML-filer i Python er urllib.request. Du må import metoden urlopen for å få tilgang til nettsider. Oppgi ganske enkelt URL-en til siden du ønsker å åpne som en parameter til denne metoden.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Som vist i eksempelet ovenfor, mottar du et http.client.HTTPResponse-objekt som resultat, noe som er annerledes enn det vi ønsket. For å hente ut HTML-strukturen, bør du bruke metodene .read() og .decode("utf-8") på objektet du har fått.

Note
Definisjon

Delen decode("utf-8") brukes for å konvertere rå binærdata til en lesbar tekststreng, forutsatt at nettsidens innhold er kodet med UTF-8. Denne konverteringen gjør det mulig å arbeide med tekstdataen som finnes på nettsiden på en meningsfull måte, for eksempel ved å analysere eller tolke innholdet.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Som et resultat av å bruke metodene .read() og .decode(), får du en streng. Denne strengen inneholder HTML-strukturen på en godt formatert måte, noe som gjør den lett å lese og lar deg bruke strengmetoder på den.

Hvis ikke .decode()-metoden ble brukt, ville du motta et bytes-objekt med hele HTML-siden representert som én streng med spesifikke tegn. Prøv gjerne å eksperimentere med dette!

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 8
some-alt