Summary  
This chapter explains how to read and write CSV files using pandas’ read_csv and DataFrame.to_csv functions, covering key parameters like delimiters, headers, column selection, and index handling.  

General domain of usage  
Data analysis and manipulation

Poiché `pandas` è la libreria di riferimento per l'analisi e la manipolazione dei dati, una delle sue caratteristiche principali è la capacità di leggere e scrivere vari tipi di file, inclusi i file CSV.

Un file **CSV (Comma-Separated Values)** è un file di testo semplice utilizzato per memorizzare dati tabellari, dove ogni riga rappresenta un record e le colonne sono separate da virgole.

Un file CSV può contenere i seguenti dati:

- **Numeri**: valori interi o decimali (ad esempio, `42`, `3.14`);
- **Testo**: stringhe o dati categoriali (ad esempio, `John`, `Active`);
- **Date/Ore**: timestamp (ad esempio, `2023-12-30`);
- **Booleani**: valori logici (`True`, `False`).

Ogni riga deve avere lo stesso numero di colonne e la prima riga spesso contiene le **intestazioni delle colonne**.

Funzioni come `read_csv()` e `to_csv()` sono utili per lavorare con i dati CSV.

La sintassi di base di `read_csv()` e i parametri principali sono i seguenti:

Ecco la versione aggiornata con il parametro **`index_col`** aggiunto e spiegato chiaramente:

---

```python
pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)
```

* **`filepath_or_buffer`**: percorso del file CSV (stringa o URL);
* **`sep`**: delimitatore (il valore predefinito è la virgola `,`);
* **`header`**: numero della riga da utilizzare come intestazioni delle colonne (predefinito è la prima riga);
* **`names`**: elenco dei nomi delle colonne da utilizzare;
* **`usecols`**: sottoinsieme di colonne da leggere;
* **`index_col`**: colonna (o elenco di colonne) da impostare come indice del DataFrame.

# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Assicurarsi che il link al dataset sia racchiuso tra virgolette.

Nota

La sintassi di base di `to_csv()` e i parametri principali sono i seguenti:

```python
pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)
```

- **`path_or_buf`**: percorso del file o oggetto dove il CSV deve essere scritto;  
- **`sep`**: delimitatore per separare i valori (il valore predefinito è la virgola `,`);  
- `columns`: sottoinsieme di colonne da scrivere (predefinito tutte le colonne);
- **`header`**: se includere o meno i nomi delle colonne come intestazione (predefinito `True`);
- **`index`**: se scrivere o meno gli indici delle righe nel file (predefinito `True`).

import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

import unittest
import importlib
import pandas as pd


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


def get_first_differing_row(expected_df, actual_df):
    expected_list = expected_df.astype(str).apply(tuple, axis=1)
    actual_list = actual_df.astype(str).apply(tuple, axis=1)

    for i, (row1, row2) in enumerate(zip(expected_list, actual_list)):
        if row1 != row2:
            return i, expected_df.iloc[i].values, actual_df.iloc[i].values

    if len(expected_df) > len(actual_df):
        return len(actual_df), expected_df.iloc[len(actual_df)].values, None
    else:
        return len(expected_df), None, actual_df.iloc[len(expected_df)].values


class TestUserCode(unittest.TestCase):

    def test_wine_data_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'wine_data'),
            "The `wine_data` variable is declared.",
            "Expected `wine_data` to be declared."
        )

    def test_wine_data_is_dataframe(self):
        import user_code

        try:
            condition = isinstance(user_code.wine_data, pd.DataFrame)
            failure_message = f"Expected `wine_data` to be a `DataFrame`, but got `{type(user_code.wine_data).__name__}`."
        except AttributeError:
            condition = False
            failure_message = "The `wine_data` variable is not declared."

        _dynamic_test(
            self,
            condition,
            "The variable `wine_data` is a `DataFrame`.",
            failure_message
        )

    def test_wine_data_is_correct(self):
        import user_code
        file_url = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv'
        expected_df = pd.read_csv(file_url)

        variable = 'wine_data'
        actual_df = getattr(user_code, variable, None)
        condition = False
        if actual_df is None:
            failure_message = f"The `{variable}` variable is not declared."
        elif not isinstance(actual_df, pd.DataFrame):
            failure_message = f"`{variable}` is not a `DataFrame`."
        elif actual_df.empty:
            failure_message = f"`{variable}` is empty."
        elif actual_df.equals(expected_df):
            condition = True
            failure_message = None
        else:
            idx, expected_row, actual_row = get_first_differing_row(expected_df, actual_df)
            failure_message = f"Expected `{variable}` to contain `{expected_row}` at row {idx}, but got `{actual_row}`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct data.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Pandas è una libreria estremamente intuitiva per l'analisi dei dati. È inoltre progettata per gestire grandi set di dati, utilizzando strutture dati come DataFrame e Series. Questo la rende uno strumento indispensabile per la Data Science. In questa guida, verrà presentata una gamma di funzioni statistiche, tra cui come trovare correlazioni, modali, mediane, valori massimi e minimi all'interno di un set di dati. Verrà inoltre illustrato come gestire valori mancanti e manipolare valori specifici, nonché come rimuoverli.

Approfondisci i fondamenti della libreria pandas. Impara a creare e manipolare Series e DataFrame, esplora la loro struttura e acquisisci sicurezza nell'esecuzione delle operazioni essenziali sui dati.

Apprendimento delle tecniche di caricamento e gestione dei dati da file CSV e TXT. Acquisizione di esperienza pratica nell'importazione di dataset e nella loro preparazione per analisi successive utilizzando gli strumenti di pandas.

Apprendere come esplorare, pulire e sintetizzare i dati in modo efficace. Comprendere la gestione dei valori mancanti, l'estrazione di informazioni e l'esecuzione di operazioni statistiche di base con pandas.

File CSV

Soluzione