Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele HTML-Tiedoston Avaaminen | Getting Acquainted with HTML
Verkkosivujen Tietojen Keruu Pythonilla

bookHTML-Tiedoston Avaaminen

Kun olet perehtynyt HTML:n perusominaisuuksiin, tarkastellaan ensimmäistä tapaa työskennellä sen kanssa Pythonissa.

Yksi moduuleista, joita voit käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request. Sinun tulee import urlopen-metodi, jotta voit käyttää verkkosivuja. Anna vain avattavan sivun URL tämän metodin parametrina.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Kuten yllä olevasta esimerkistä nähdään, saat tuloksena http.client.HTTPResponse-olion, joka poikkeaa siitä, mitä tavoittelimme. Saadaksesi HTML-rakenteen, sinun tulee käyttää hankkimallesi oliolle metodeja .read() ja .decode("utf-8").

Note
Määritelmä

decode("utf-8")-osaa käytetään muuntamaan raaka binääridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Käyttämällä .read()- ja .decode()-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.

Jos .decode()-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 8

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 4.35

bookHTML-Tiedoston Avaaminen

Pyyhkäise näyttääksesi valikon

Kun olet perehtynyt HTML:n perusominaisuuksiin, tarkastellaan ensimmäistä tapaa työskennellä sen kanssa Pythonissa.

Yksi moduuleista, joita voit käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request. Sinun tulee import urlopen-metodi, jotta voit käyttää verkkosivuja. Anna vain avattavan sivun URL tämän metodin parametrina.

1234567
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
copy

Kuten yllä olevasta esimerkistä nähdään, saat tuloksena http.client.HTTPResponse-olion, joka poikkeaa siitä, mitä tavoittelimme. Saadaksesi HTML-rakenteen, sinun tulee käyttää hankkimallesi oliolle metodeja .read() ja .decode("utf-8").

Note
Määritelmä

decode("utf-8")-osaa käytetään muuntamaan raaka binääridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.

1234567891011
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
copy

Käyttämällä .read()- ja .decode()-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.

Jos .decode()-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 8
some-alt