Summary  
This chapter demonstrates how to use a method to retrieve the rows with the smallest values in one or more columns of a tabular data structure, including multi-column sorting and duplicate-handling options.  

General domain of usage  
Data analysis

Watch this video for a step-by-step walkthrough on using the pandas `.nsmallest()` method to quickly find the smallest values in a DataFrame column. You'll see how to use this function to extract rows with the lowest values, sort by multiple columns, and handle duplicate values with the `keep='all'` argument. This visual guide will reinforce the concepts from the chapter and help you confidently apply `.nsmallest()` in your own data analysis tasks.

**generation rule: pronounce .nsmallest() as "N smallest"**

Sie lernen eine weitere wichtige Funktion kennen, die die kleinsten oder größten Werte ausgibt. Sie wissen bereits, dass wir Werte sortieren und dann eine bestimmte Anzahl von Zeilen extrahieren können. Wenig überraschend kann **pandas** dies mit nur einer Codezeile erledigen. Sehen Sie sich das Beispiel an, wie die fünfzehn ältesten Autos abgerufen werden:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(15, 'Year')
print(data_smallest.head(15))

Wenn Sie nach einer Spalte und anschließend nach einer weiteren sortieren möchten, geben Sie einfach eine Liste mit den Spaltennamen in der gewünschten Reihenfolge an. Sehen Sie sich das Beispiel an, in dem wir zuerst nach `'Year'` und dann nach `'Engine_volume'` sortieren. Dieser Code extrahiert zunächst die `5` ältesten Autos, und falls die Jahre übereinstimmen, erhält das Auto mit dem kleineren Wert in der Spalte `'Engine_volume'` den Vorrang:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(5, ['Year', 'Engine_volume'])
print(data_smallest.head())

Vergleiche die beiden folgenden Beispiele. Nun erweitern wir die Funktion etwas. Wir geben unsere Beispiele mit den Werten der Spalte `'Year'` zurück. In unserer Spalte können die Werte von `'Year'` mehrfach vorkommen. Wenn wir also mit der bisherigen Syntax die zehn ältesten Autos ausgeben möchten, nimmt unsere Funktion einfach zehn Werte, unabhängig davon, ob der 11. oder 12. Wert identisch mit dem 10. ist. Um solche Fälle zu vermeiden, können wir das Argument `keep = 'all'` in die Methode `.nsmallest()` einfügen. Sieh dir das Beispiel an und führe es aus, um den Unterschied zu erkennen:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case without using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year')
print(data_smallest)

data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case with using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year',
                             keep = 'all')
print(data_smallest)

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_ignore_col_order(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÑÑ ÑÑÐ²Ð½ÑÑÑÑ DataFrame Ð½ÐµÐ·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº."""
    if set(df1.columns) != set(df2.columns):
        return False
    common_cols = sorted(df1.columns)
    df1_sorted = df1[common_cols].reset_index(drop=True)
    df2_sorted = df2[common_cols].reset_index(drop=True)
    return df1_sorted.equals(df2_sorted)


class TestRetrieveYear(unittest.TestCase):
    def test_year_filter(self):
        """
        1. Retrieve data on cars where 'Year' > 2010.
        """
        import user_code
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv",
            index_col=0,
        )
        ref = df.loc[df["Year"] > 2010]

        condition = (
            hasattr(user_code, "data_extracted")
            and isinstance(user_code.data_extracted, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_extracted, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_extracted' DataFrame correctly includes cars with Year > 2010.",
            "The filtering by Year > 2010 is incorrect. Check your .loc[] condition."
        )


class TestCheapestCars(unittest.TestCase):
    def test_cheapest_15(self):
        """
        2. Extract the 15 cheapest cars (including duplicates) using .nsmallest().
        """
        import user_code
        ref = user_code.data_extracted.nsmallest(15, "Price", keep="all")

        condition = (
            hasattr(user_code, "data_cheapest")
            and isinstance(user_code.data_cheapest, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_cheapest, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_cheapest' DataFrame correctly includes the 15 cheapest cars (duplicates included).",
            "The extraction of the 15 cheapest cars is incorrect. Use .nsmallest(15, 'Price', keep='all')."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        3. Output all values of the 'data_cheapest' DataFrame.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_cheapest)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The output displays all rows of 'data_cheapest' correctly.",
            "The 'data_cheapest' DataFrame is not printed. Use print(data_cheapest)."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Dieser Kurs enthält viele nützliche Funktionen für angehende Data Analysts. Sie lernen verschiedene Methoden zur Extraktion von Daten kennen und können sogar Bedingungen darauf anwenden. Anschließend werden Sie mit Methoden zur Gruppierung von Daten vertraut gemacht. Außerdem lernen Sie, wie man Daten vorverarbeitet. Jeder Abschnitt verfügt über einen eigenen Datensatz, sodass der Kurs spannend bleibt.

In diesem Abschnitt lernen Sie, wie Sie bestimmte Spalten anhand ihrer Titel oder Indizes ausgeben. Außerdem machen Sie sich mit den Methoden vertraut, mit denen Sie Zeilen anhand von Indizes auswählen können.

Hier lernen Sie, wie man Daten extrahiert, die bestimmte Bedingungen erfüllen. Außerdem lernen Sie, wie man diese kombiniert und sogar eigene Bedingungen erstellt.

In diesem Abschnitt erweitern Sie Ihr Wissen über das Festlegen verschiedener Datenbedingungen. Sie lernen, zu überprüfen, ob Ihre Daten in einer definierten Werteliste oder zwischen zwei Werten liegen. Sie erfahren außerdem, wie Sie die größten und kleinsten Werte finden.

Dieser Abschnitt ist einer der faszinierendsten des Kurses. Hier lernen Sie, wie Sie Daten auf verschiedene Arten gruppieren können. Dies wird Ihnen als Data Analyst helfen, Informationen über bestimmte Datengruppen zu ermitteln.

Dieser Abschnitt ist einer der wichtigsten für Datenanalysten, da es unmöglich ist, mit Daten zu arbeiten, wenn sie fehlende Werte oder ein falsches Format enthalten. Daher lernen Sie hier, wie man mit solchen ungeeigneten Werten umgeht.

Finding the Smallest Values of a Column

Lösung