Summary  
This chapter demonstrates how to use a method to retrieve the rows with the smallest values in one or more columns of a tabular data structure, including multi-column sorting and duplicate-handling options.  

General domain of usage  
Data analysis

Watch this video for a step-by-step walkthrough on using the pandas `.nsmallest()` method to quickly find the smallest values in a DataFrame column. You'll see how to use this function to extract rows with the lowest values, sort by multiple columns, and handle duplicate values with the `keep='all'` argument. This visual guide will reinforce the concepts from the chapter and help you confidently apply `.nsmallest()` in your own data analysis tasks.

**generation rule: pronounce .nsmallest() as "N smallest"**

Du vil lære en anden vigtig funktion, som returnerer de mindste eller største værdier. Du ved allerede, at vi kan sortere værdier og derefter udtrække et bestemt antal rækker. Ikke overraskende kan **pandas** gøre dette med kun én linje kode. Se eksemplet på, hvordan man henter de ældste femten biler:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(15, 'Year')
print(data_smallest.head(15))

Hvis du vil sortere efter én kolonne og derefter efter en anden, skal du blot angive en liste med kolonnenavne i den ønskede rækkefølge. Se eksemplet, hvor vi først sorterer efter `'Year'` og derefter efter `'Engine_volume'`. Denne kode vil først udtrække de `5` ældste biler, og hvis årstallene er ens, vil bilen med den laveste værdi i kolonnen `'Engine_volume'` få prioritet:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(5, ['Year', 'Engine_volume'])
print(data_smallest.head())

Prøv at sammenligne de to eksempler nedenfor. Nu udvider vi funktionen en smule. Lad os returnere vores eksempler med kolonnens `'Year'`-værdier. I vores kolonne kan `'Year'`-værdierne være gentaget, så hvis vi ønsker at vise de ti ældste biler med den tidligere syntaks, vil funktionen kun tage ti værdier. Den tager ikke hensyn til, om den 11. eller 12. værdi er den samme som den 10. Vi kan tilføje argumentet `keep = 'all'` til `.nsmallest()`-metoden for at undgå sådanne tilfælde. Se eksemplet, og prøv at køre det for at se forskellen:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case without using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year')
print(data_smallest)

data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case with using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year',
                             keep = 'all')
print(data_smallest)

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_ignore_col_order(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÑÑ ÑÑÐ²Ð½ÑÑÑÑ DataFrame Ð½ÐµÐ·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº."""
    if set(df1.columns) != set(df2.columns):
        return False
    common_cols = sorted(df1.columns)
    df1_sorted = df1[common_cols].reset_index(drop=True)
    df2_sorted = df2[common_cols].reset_index(drop=True)
    return df1_sorted.equals(df2_sorted)


class TestRetrieveYear(unittest.TestCase):
    def test_year_filter(self):
        """
        1. Retrieve data on cars where 'Year' > 2010.
        """
        import user_code
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv",
            index_col=0,
        )
        ref = df.loc[df["Year"] > 2010]

        condition = (
            hasattr(user_code, "data_extracted")
            and isinstance(user_code.data_extracted, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_extracted, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_extracted' DataFrame correctly includes cars with Year > 2010.",
            "The filtering by Year > 2010 is incorrect. Check your .loc[] condition."
        )


class TestCheapestCars(unittest.TestCase):
    def test_cheapest_15(self):
        """
        2. Extract the 15 cheapest cars (including duplicates) using .nsmallest().
        """
        import user_code
        ref = user_code.data_extracted.nsmallest(15, "Price", keep="all")

        condition = (
            hasattr(user_code, "data_cheapest")
            and isinstance(user_code.data_cheapest, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_cheapest, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_cheapest' DataFrame correctly includes the 15 cheapest cars (duplicates included).",
            "The extraction of the 15 cheapest cars is incorrect. Use .nsmallest(15, 'Price', keep='all')."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        3. Output all values of the 'data_cheapest' DataFrame.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_cheapest)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The output displays all rows of 'data_cheapest' correctly.",
            "The 'data_cheapest' DataFrame is not printed. Use print(data_cheapest)."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dette kursus indeholder mange nyttige funktioner for en kommende dataanalytiker. Du vil lære forskellige måder at udtrække data på og endda sætte betingelser for dem. Herefter vil du blive fortrolig med metoder til gruppering af data. Du vil også lære, hvordan man forbehandler data. Hvert afsnit har sit eget datasæt, så kurset bliver spændende.

Dette afsnit vil lære dig, hvordan du kan udtrække specifikke kolonner ved hjælp af deres titler eller indekser. Du vil også blive introduceret til måder, hvorpå du kan vælge rækker ud fra deres indekser.

Her vil du lære, hvordan man udtrækker data, der opfylder specifikke betingelser. Du vil også lære, hvordan man kombinerer dem og endda opretter dine egne.

I dette afsnit vil du udvide din viden om at opstille forskellige datakriterier. Du vil lære at kontrollere, om dine data er i en defineret liste af værdier eller mellem to værdier. Du vil også lære, hvordan du finder de største og mindste værdier.

Dette afsnit er et af de mest fascinerende i kurset. Her vil du lære, hvordan man grupperer data på forskellige måder. Det vil hjælpe dig som dataanalytiker med at finde information om specifikke datagrupper.

Dette afsnit er et af de mest betydningsfulde for en dataanalytiker, fordi det vil være umuligt at arbejde med data, hvis de indeholder manglende dataværdier i forkert format. Derfor vil du her lære, hvordan man håndterer sådanne upassende værdier.

Finde de mindste værdier i en kolonne

Løsning