Summary  
This chapter demonstrates how to use a method to retrieve the rows with the smallest values in one or more columns of a tabular data structure, including multi-column sorting and duplicate-handling options.  

General domain of usage  
Data analysis

Watch this video for a step-by-step walkthrough on using the pandas `.nsmallest()` method to quickly find the smallest values in a DataFrame column. You'll see how to use this function to extract rows with the lowest values, sort by multiple columns, and handle duplicate values with the `keep='all'` argument. This visual guide will reinforce the concepts from the chapter and help you confidently apply `.nsmallest()` in your own data analysis tasks.

**generation rule: pronounce .nsmallest() as "N smallest"**

Du vil lære en annen viktig funksjon som returnerer de minste eller største verdiene. Du vet allerede at vi kan sortere verdier og deretter hente ut et bestemt antall rader. Ikke overraskende kan **pandas** gjøre dette med kun én kodelinje. Se eksempelet på hvordan du henter de femten eldste bilene:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(15, 'Year')
print(data_smallest.head(15))

Hvis du vil sortere etter én kolonne og deretter etter en annen, setter du bare en liste med kolonnenavn i ønsket rekkefølge. Se eksempelet der vi først sorterer etter `'Year'` og deretter etter `'Engine_volume'`. Denne koden vil først hente ut de `5` eldste bilene, og hvis årstallene er like, vil bilen med lavest verdi i kolonnen `'Engine_volume'` få prioritet:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(5, ['Year', 'Engine_volume'])
print(data_smallest.head())

Prøv å sammenligne de to eksemplene nedenfor. Nå skal vi utvide funksjonen litt. La oss bruke eksemplene våre med kolonnen `'Year'`. I denne kolonnen kan verdiene for `'Year'` gjentas, så hvis vi ønsker å vise de ti eldste bilene med den forrige syntaksen, vil funksjonen bare ta med ti verdier. Den tar ikke hensyn til om den 11. eller 12. verdien er lik den 10. Vi kan legge til argumentet `keep = 'all'` i `.nsmallest()`-metoden for å unngå slike tilfeller. Se på eksemplet, og prøv å kjøre det for å se forskjellen:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case without using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year')
print(data_smallest)

data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case with using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year',
                             keep = 'all')
print(data_smallest)

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_ignore_col_order(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÑÑ ÑÑÐ²Ð½ÑÑÑÑ DataFrame Ð½ÐµÐ·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº."""
    if set(df1.columns) != set(df2.columns):
        return False
    common_cols = sorted(df1.columns)
    df1_sorted = df1[common_cols].reset_index(drop=True)
    df2_sorted = df2[common_cols].reset_index(drop=True)
    return df1_sorted.equals(df2_sorted)


class TestRetrieveYear(unittest.TestCase):
    def test_year_filter(self):
        """
        1. Retrieve data on cars where 'Year' > 2010.
        """
        import user_code
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv",
            index_col=0,
        )
        ref = df.loc[df["Year"] > 2010]

        condition = (
            hasattr(user_code, "data_extracted")
            and isinstance(user_code.data_extracted, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_extracted, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_extracted' DataFrame correctly includes cars with Year > 2010.",
            "The filtering by Year > 2010 is incorrect. Check your .loc[] condition."
        )


class TestCheapestCars(unittest.TestCase):
    def test_cheapest_15(self):
        """
        2. Extract the 15 cheapest cars (including duplicates) using .nsmallest().
        """
        import user_code
        ref = user_code.data_extracted.nsmallest(15, "Price", keep="all")

        condition = (
            hasattr(user_code, "data_cheapest")
            and isinstance(user_code.data_cheapest, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_cheapest, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_cheapest' DataFrame correctly includes the 15 cheapest cars (duplicates included).",
            "The extraction of the 15 cheapest cars is incorrect. Use .nsmallest(15, 'Price', keep='all')."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        3. Output all values of the 'data_cheapest' DataFrame.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_cheapest)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The output displays all rows of 'data_cheapest' correctly.",
            "The 'data_cheapest' DataFrame is not printed. Use print(data_cheapest)."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dette kurset inneholder mange nyttige funksjoner for en fremtidig dataanalytiker. Du vil lære ulike måter å hente ut data på og til og med sette betingelser for dem. Etter dette vil du bli kjent med metoder for å gruppere data. Du vil også lære hvordan du forhåndsbehandler data. Hver seksjon har sitt eget datasett, noe som gjør kurset engasjerende.

Denne seksjonen vil lære deg hvordan du kan hente ut spesifikke kolonner ved hjelp av titler eller indekser. Du vil også bli kjent med ulike måter å velge rader basert på indekser.

Her vil du lære hvordan du kan hente ut data som oppfyller spesifikke betingelser. Du vil også lære hvordan du kan kombinere dem og til og med lage dine egne.

I denne delen vil du utvide kunnskapen din om å sette ulike datakriterier. Du vil lære å sjekke om dataene dine finnes i en definert liste med verdier eller mellom to verdier. Du vil også lære hvordan du finner de største og minste verdiene.

Denne seksjonen er en av de mest fascinerende i kurset. Her vil du lære hvordan du kan gruppere data på ulike måter. Dette vil hjelpe deg som dataanalytiker med å finne informasjon om spesifikke datagrupper.

Denne seksjonen er en av de viktigste for en dataanalytiker fordi det vil være umulig å arbeide med dataene dersom de inneholder manglende verdier eller feil format. Derfor vil du lære hvordan du håndterer slike upassende verdier her.

Finne de minste verdiene i en kolonne

Løsning