HTML-Tiedoston Avaaminen
Kun olet perehtynyt HTML:n perusominaisuuksiin, tarkastellaan ensimmäistä tapaa työskennellä sen kanssa Pythonissa.
Yksi moduuleista, joita voit käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request
. Sinun tulee import
urlopen
-metodi, jotta voit käyttää verkkosivuja. Anna vain avattavan sivun URL tämän metodin parametrina.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Kuten yllä olevasta esimerkistä nähdään, saat tuloksena http.client.HTTPResponse
-olion, joka poikkeaa siitä, mitä tavoittelimme. Saadaksesi HTML-rakenteen, sinun tulee käyttää hankkimallesi oliolle metodeja .read()
ja .decode("utf-8")
.
decode("utf-8")
-osaa käytetään muuntamaan raaka binääridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Käyttämällä .read()
- ja .decode()
-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.
Jos .decode()
-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 4.35
HTML-Tiedoston Avaaminen
Pyyhkäise näyttääksesi valikon
Kun olet perehtynyt HTML:n perusominaisuuksiin, tarkastellaan ensimmäistä tapaa työskennellä sen kanssa Pythonissa.
Yksi moduuleista, joita voit käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request
. Sinun tulee import
urlopen
-metodi, jotta voit käyttää verkkosivuja. Anna vain avattavan sivun URL tämän metodin parametrina.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Kuten yllä olevasta esimerkistä nähdään, saat tuloksena http.client.HTTPResponse
-olion, joka poikkeaa siitä, mitä tavoittelimme. Saadaksesi HTML-rakenteen, sinun tulee käyttää hankkimallesi oliolle metodeja .read()
ja .decode("utf-8")
.
decode("utf-8")
-osaa käytetään muuntamaan raaka binääridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Käyttämällä .read()
- ja .decode()
-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.
Jos .decode()
-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!
Kiitos palautteestasi!