HTML-Tiedoston Avaaminen
Olet jo perehtynyt HTML-perusteisiin, joten tutustu nyt ensimmäiseen tapaan käsitellä sitä Pythonilla.
Yksi moduuleista, joita voidaan käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request. Sinun tulee import urlopen metodi päästäksesi verkkosivuille. Anna vain avattavan sivun URL tämän metodin parametrina.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Kuten yllä olevassa esimerkissä on esitetty, tuloksena saadaan http.client.HTTPResponse-objekti, mikä ei ole haluttu lopputulos. HTML-rakenteen saamiseksi käytä saamallesi objektille .read()- ja .decode('utf-8')-metodeja.
decode("utf-8")-osaa käytetään muuntamaan raakabinaaridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Käyttämällä .read()- ja .decode()-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.
Jos .decode()-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What other methods can I use to work with HTML in Python?
Can you explain why we need to use .decode('utf-8')?
What can I do with the HTML string once I have it?
Awesome!
Completion rate improved to 4.35
HTML-Tiedoston Avaaminen
Pyyhkäise näyttääksesi valikon
Olet jo perehtynyt HTML-perusteisiin, joten tutustu nyt ensimmäiseen tapaan käsitellä sitä Pythonilla.
Yksi moduuleista, joita voidaan käyttää HTML-tiedostojen käsittelyyn Pythonissa, on urllib.request. Sinun tulee import urlopen metodi päästäksesi verkkosivuille. Anna vain avattavan sivun URL tämän metodin parametrina.
1234567# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) print(page)
Kuten yllä olevassa esimerkissä on esitetty, tuloksena saadaan http.client.HTTPResponse-objekti, mikä ei ole haluttu lopputulos. HTML-rakenteen saamiseksi käytä saamallesi objektille .read()- ja .decode('utf-8')-metodeja.
decode("utf-8")-osaa käytetään muuntamaan raakabinaaridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu UTF-8-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.
1234567891011# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") print(type(web_page)) print(web_page)
Käyttämällä .read()- ja .decode()-metodeja saat merkkijonon. Tämä merkkijono sisältää HTML-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.
Jos .decode()-metodia ei käytettäisi, saisit bytes-olion, jossa koko HTML-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!
Kiitos palautteestasi!