Summary  
This chapter introduces Spark’s DataFrame read API for loading data from external files or tables with configurable options such as format specification, header usage, and schema inference. It also demonstrates verifying the loaded DataFrame to ensure correct ingestion.  

General domain of usage  
Data engineering

`spark.read`-objekti on lähtökohta ulkoisen datan lukemiseen Spark DataFrameen. Se tukee useita tiedostomuotoja, kuten CSV, JSON, Parquet ja Delta, ja mahdollistaa sen määrittämisen, miten Spark tulkitsee tiedostot.


Määritelmä

Osiossa 2 latasit CSV-tiedoston Databricks-ympäristöön. Nyt opit, kuinka tämä tiedosto "nostetaan" tallennustilasta ja tuodaan klusterin muistiin DataFrameksi Pythonin avulla. Tämä on lähes jokaisen data engineering -prosessin ensimmäinen vaihe.


## spark.read-syntaksi
Tiedoston lataamiseen käytetään tiettyä komentoketjua. Perusrakenne näyttää tältä: 


```
df = spark.read.format("csv").option("header", "true").load("path/to/file")
```

- **format:** määrittää Sparkille tiedostotyypin (csv, json, parquet);
- **option("header", "true"):** ohjeistaa Sparkia käyttämään tiedoston ensimmäistä riviä sarakeotsikoina;
- **load:** tiedoston tarkka sijainti Databricks-ympäristössä.


## Skeeman automaattinen tunnistus
Oletuksena Spark olettaa, että jokainen CSV-tiedoston sarake on merkkijono (teksti). Jotta data olisi hyödyllisempää, lisätään toinen asetus: `.option("inferSchema", "true")`. Kun tämä on käytössä, Spark tarkistaa nopeasti datan ja tunnistaa automaattisesti, mitkä sarakkeet ovat kokonaislukuja, desimaaleja tai totuusarvoja. Tämä säästää manuaalista työtä tietotyyppien määrittelyssä.


## Tiedostopolun paikantaminen
Tiedoston lukemista varten tarvitset sen polun. **Catalog**- tai **Workspace**-välilehdellä voit etsiä lataamasi tiedoston, klikata sen vieressä olevia kolmea pistettä (ellipsi) ja valita "Copy path". Uudemmassa Databricksissa, jos latasit tiedoston Data Ingestion -käyttöliittymän kautta kuten teimme luvussa 2.6, data on jo tallennettu tauluna, jonka voimme lukea seuraavasti:


```python
df = spark.read.table("main.default.sample_sales_records")
```

Jos kuitenkin luet raakaa tiedostoa suoraan Volumesta, käytät tiedostopolkua:


```
df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my_volume/sales_data.csv")
```

## Latauksen varmistaminen
Kun latauskomento on suoritettu, on hyvä käytäntö varmistaa tiedot. Luku-komennon jälkeen kannattaa heti käyttää: `display(df)`

Tämä vahvistaa, että tiedot on ladattu klusterin muistiin oikein, otsikot ovat oikeilla paikoillaan ja tietotyypit näyttävät oikeilta. Tässä vaiheessa tiedot sijaitsevat väliaikaisessa objektissa nimeltä `df`, ja olet valmis aloittamaan tietojen muuntamisen.


Miksi kannattaa käyttää asetusta .option("inferSchema", "true") CSV-tiedostoa luettaessa?

Mitä komentoa käytetään tuomaan olemassa oleva taulu Catalogista Python DataFrameen?

Käytännönläheinen johdanto Databricksiin, sen keskeisiin käsitteisiin sekä käytännön datan käsittelyyn Pythonilla ja SQL:llä. Kurssi on suunniteltu täysin aloittelijoille, painottaen selkeyttä, yksinkertaisuutta ja käytännön sovelluksia.

Määrittele Databricks yksinkertaisesti ja esittele keskeiset termit ilman ammattisanastoa.

Kirjaudu sisään ja käynnistä laskentaympäristö.

Hallitse ensisijainen kehitysympäristö hyödyntämällä tuttua Pythonia ja SQL:ää.

Käytännönläheinen, käytännön tietojen käsittely DataFramejen avulla (ydintietorakenne).

Esittele tärkein erottautumistekijä, Delta Lake, yksinkertaisesti.

Datan Lataaminen Tiedostosta DataFrameen

spark.read-syntaksi

Skeeman automaattinen tunnistus

Tiedostopolun paikantaminen

Latauksen varmistaminen

1. Miksi kannattaa käyttää asetusta .option("inferSchema", "true") CSV-tiedostoa luettaessa?

2. Mitä komentoa käytetään tuomaan olemassa oleva taulu Catalogista Python DataFrameen?