Summary  
This chapter explains how to fetch HTML content from a URL using Python’s urllib.request, read the HTTPResponse, and decode the resulting bytes into a string for further processing.

General domain of usage  
Web scraping

Olet jo perehtynyt **HTML**-perusteisiin, joten tutustu nyt ensimmäiseen tapaan käsitellä sitä **Pythonilla**.

Yksi moduuleista, joita voidaan käyttää __HTML__-tiedostojen käsittelyyn __Pythonissa__, on `urllib.request`. Sinun tulee `import` `urlopen` __metodi__ päästäksesi verkkosivuille. Anna vain avattavan sivun __URL__ tämän __metodin__ __parametrina__.

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)
print(page)

Kuten yllä olevassa esimerkissä on esitetty, tuloksena saadaan `http.client.HTTPResponse`-objekti, mikä ei ole haluttu lopputulos. **HTML**-rakenteen saamiseksi käytä saamallesi objektille `.read()`- ja `.decode('utf-8')`-metodeja.

`decode("utf-8")`-osaa käytetään muuntamaan raakabinaaridata ihmisen luettavaksi merkkijonoksi olettaen, että verkkosivun sisältö on koodattu **UTF-8**-muodossa. Tämä muunnos mahdollistaa verkkosivun tekstidatan käsittelyn merkityksellisellä tavalla, kuten sisällön jäsentämisen tai analysoinnin.

Määritelmä

# Importing the module
from urllib.request import urlopen

# Opening web page
url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html"
page = urlopen(url)

# Reading and decoding
web_page = page.read().decode("utf-8")
print(type(web_page))
print(web_page)

Käyttämällä `.read()`- ja `.decode()`-metodeja saat merkkijonon. Tämä merkkijono sisältää __HTML__-rakenteen selkeästi jäsenneltynä, mikä tekee siitä helposti luettavan ja mahdollistaa merkkijonometodien käytön siihen.

Jos `.decode()`-metodia ei käytettäisi, saisit __bytes__-olion, jossa koko __HTML__-sivu on esitetty yhtenä merkkijonona erityisillä merkeillä. Kokeile tätä vapaasti!

Opi keräämään arvokasta dataa verkkosivuilta automaattisesti. Hallitse tehokkaat tiedonkeruumenetelmät, jotka mahdollistavat syvällisen analyysin, tietoon perustuvan päätöksenteon ja uusien oivallusten löytämisen laajasta verkkotiedon määrästä.

Tutustu HTML-tiedoston rakenteeseen, opi lataamaan se tehokkaasti ja hanki käytännön taitoja sen sisältämän datan käsittelyyn.

Tutustu Beautiful Soupin perusteisiin tiedon poimimiseksi HTML-dokumenteista. Opiskele HTML:n rakenteen navigointia, tiettyihin elementteihin pääsyä sekä lapsielementtien käsittelyä vahvan pohjan rakentamiseksi web-scrapingiin.

Hallitse elementtien attribuuttien ja sisällön käsittely Beautiful Soupin avulla. Kehitä taidot tietyn tiedon poimimiseen, elementtien etsimiseen attribuuttien arvojen perusteella sekä edistyneiden tekniikoiden hyödyntämiseen HTML-datan tehokkaassa jäsentämisessä ja analysoinnissa.

HTML-Tiedoston Avaaminen