Summary  
This chapter explains how to read and write CSV files using pandas’ read_csv and DataFrame.to_csv functions, covering key parameters like delimiters, headers, column selection, and index handling.  

General domain of usage  
Data analysis and manipulation

Eftersom `pandas` är det främsta biblioteket för dataanalys och datamanipulation är en av dess viktigaste funktioner möjligheten att läsa och skriva olika filtyper, inklusive CSV-filer.

En **CSV (Comma-Separated Values)**-fil är en textfil som används för att lagra tabulär data, där varje rad representerar en post och kolumner separeras med kommatecken.

En CSV-fil kan innehålla följande data:

- **Tal**: heltals- eller decimaltal (t.ex. `42`, `3.14`);
- **Text**: strängar eller kategoriska data (t.ex. `John`, `Active`);
- **Datum/Tid**: tidsstämplar (t.ex. `2023-12-30`);
- **Booleska värden**: logiska värden (`True`, `False`).

Varje rad måste ha samma antal kolumner, och den första raden innehåller ofta **kolumnrubriker**.

Funktioner som `read_csv()` och `to_csv()` är användbara för att arbeta med CSV-data.

Den grundläggande syntaxen för `read_csv()` och viktiga parametrar är följande:

Här är den uppdaterade versionen med parametern **`index_col`** tillagd och tydligt förklarad:

---

```python
pandas.read_csv(filepath_or_buffer, sep=',', header=0, names=None, usecols=None, index_col=None, ...)
```

* **`filepath_or_buffer`**: sökväg till CSV-filen (sträng eller URL);
* **`sep`**: avgränsare (standard är kommatecken `,`);
* **`header`**: radnummer att använda som kolumnrubriker (standard är första raden);
* **`names`**: lista med kolumnnamn att använda;
* **`usecols`**: delmängd av kolumner att läsa in;
* **`index_col`**: kolumn (eller lista av kolumner) att använda som DataFrame-index.

# Loading the CSV into a `DataFrame`
import pandas as pd

salary_data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/Salary+Dataset.csv')
print(salary_data)

Säkerställ att dataset-länken är omsluten av citattecken.

Notera

Den grundläggande syntaxen för `to_csv()` och viktiga parametrar är följande:

```python
pandas.DataFrame.to_csv(path_or_buf=None, sep=',', ..., columns=None, header=True, index=True, ...)
```

- **`path_or_buf`**: filsökväg eller objekt där CSV-filen ska sparas;  
- **`sep`**: avgränsare för att separera värden (standard är ett kommatecken `,`);  
- `columns`: delmängd av kolumner att skriva (standard är alla kolumner);
- **`header`**: om kolumnnamn ska inkluderas som rubrikrad (standard är `True`);
- **`index`**: om radindex ska skrivas till filen (standard är `True`).

import pandas as pd

countries_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'], 'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'], 'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(countries_data)

countries.to_csv('countries.csv')
print('Done')

import unittest
import importlib
import pandas as pd


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


def get_first_differing_row(expected_df, actual_df):
    expected_list = expected_df.astype(str).apply(tuple, axis=1)
    actual_list = actual_df.astype(str).apply(tuple, axis=1)

    for i, (row1, row2) in enumerate(zip(expected_list, actual_list)):
        if row1 != row2:
            return i, expected_df.iloc[i].values, actual_df.iloc[i].values

    if len(expected_df) > len(actual_df):
        return len(actual_df), expected_df.iloc[len(actual_df)].values, None
    else:
        return len(expected_df), None, actual_df.iloc[len(expected_df)].values


class TestUserCode(unittest.TestCase):

    def test_wine_data_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'wine_data'),
            "The `wine_data` variable is declared.",
            "Expected `wine_data` to be declared."
        )

    def test_wine_data_is_dataframe(self):
        import user_code

        try:
            condition = isinstance(user_code.wine_data, pd.DataFrame)
            failure_message = f"Expected `wine_data` to be a `DataFrame`, but got `{type(user_code.wine_data).__name__}`."
        except AttributeError:
            condition = False
            failure_message = "The `wine_data` variable is not declared."

        _dynamic_test(
            self,
            condition,
            "The variable `wine_data` is a `DataFrame`.",
            failure_message
        )

    def test_wine_data_is_correct(self):
        import user_code
        file_url = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv'
        expected_df = pd.read_csv(file_url)

        variable = 'wine_data'
        actual_df = getattr(user_code, variable, None)
        condition = False
        if actual_df is None:
            failure_message = f"The `{variable}` variable is not declared."
        elif not isinstance(actual_df, pd.DataFrame):
            failure_message = f"`{variable}` is not a `DataFrame`."
        elif actual_df.empty:
            failure_message = f"`{variable}` is empty."
        elif actual_df.equals(expected_df):
            condition = True
            failure_message = None
        else:
            idx, expected_row, actual_row = get_first_differing_row(expected_df, actual_df)
            failure_message = f"Expected `{variable}` to contain `{expected_row}` at row {idx}, but got `{actual_row}`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct data.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Pandas är ett mycket användarvänligt bibliotek för dataanalys. Det är också utformat för att hantera stora datamängder med hjälp av datastrukturer som DataFrame och Series. Detta gör det till ett ovärderligt verktyg inom Data Science. I denna guide kommer du att bekanta dig med olika statistiska funktioner, inklusive hur man hittar korrelationer, typvärden, medianer samt maximala och minimala värden i en datamängd. Du får även lära dig att hantera saknade värden och manipulera specifika värden, samt hur man tar bort dem.

Utforska grunderna i pandas-biblioteket. Skapa och manipulera Series och DataFrames, undersök deras struktur och stärk förståelsen för grundläggande dataoperationer.

Bemästra hur man läser in och hanterar data från CSV- och TXT-filer. Få praktisk erfarenhet av att importera dataset och förbereda dem för vidare analys med hjälp av pandas-verktyg.

Lär dig att utforska, rensa och sammanfatta data effektivt. Förstå hur man hanterar saknade värden, extraherar insikter och utför grundläggande statistiska operationer med pandas.

CSV-Filer

Lösning