Summary
This chapter demonstrates how to use Python libraries for making HTTP requests and parsing HTML documents, as well as how to handle dynamic content via browser automation.

General domain of usage
Web scraping

Tervetuloa kurssille! Tänään alat tutustua siihen, miten **web scraping** eli verkkosivujen tietojen kerääminen toimii.


**Web scraping** on prosessi, jossa tietoa kerätään automaattisesti verkkosivuilta. Esimerkiksi sitä voidaan käyttää hintojen vertailuun eri alustoilla tai osaketietojen keräämiseen.

Määritelmä

Pythonissa on lukuisia menetelmiä tiedon poimimiseen. Verrataan suosituimpia web-scraping-kirjastoja: `requests`, `BeautifulSoup`, `lxml` ja `Selenium`.

Tämän kurssin aikana keskitytään pääasiassa kahteen ensimmäiseen kirjastoon. Kuitenkin myös `selenium` ja `lxml` ovat tehokkaita työkaluja:

* `selenium` mahdollistaa **JavaScript**-tuen, mikä mahdollistaa vuorovaikutuksen dynaamisten kenttien ja valikoiden kanssa;
* `lxml` helpottaa sekä **HTML**- että **XML**-tiedostojen käsittelyä.


Opi keräämään arvokasta dataa verkkosivuilta automaattisesti. Hallitse tehokkaat tiedonkeruumenetelmät, jotka mahdollistavat syvällisen analyysin, tietoon perustuvan päätöksenteon ja uusien oivallusten löytämisen laajasta verkkotiedon määrästä.

Tutustu HTML-tiedoston rakenteeseen, opi lataamaan se tehokkaasti ja hanki käytännön taitoja sen sisältämän datan käsittelyyn.

Tutustu Beautiful Soupin perusteisiin tiedon poimimiseksi HTML-dokumenteista. Opiskele HTML:n rakenteen navigointia, tiettyihin elementteihin pääsyä sekä lapsielementtien käsittelyä vahvan pohjan rakentamiseksi web-scrapingiin.

Hallitse elementtien attribuuttien ja sisällön käsittely Beautiful Soupin avulla. Kehitä taidot tietyn tiedon poimimiseen, elementtien etsimiseen attribuuttien arvojen perusteella sekä edistyneiden tekniikoiden hyödyntämiseen HTML-datan tehokkaassa jäsentämisessä ja analysoinnissa.

Johdanto Web-Scrapingiin