Summary  
This chapter demonstrates how to use a method to retrieve the rows with the smallest values in one or more columns of a tabular data structure, including multi-column sorting and duplicate-handling options.  

General domain of usage  
Data analysis

Watch this video for a step-by-step walkthrough on using the pandas `.nsmallest()` method to quickly find the smallest values in a DataFrame column. You'll see how to use this function to extract rows with the lowest values, sort by multiple columns, and handle duplicate values with the `keep='all'` argument. This visual guide will reinforce the concepts from the chapter and help you confidently apply `.nsmallest()` in your own data analysis tasks.

**generation rule: pronounce .nsmallest() as "N smallest"**

Você aprenderá outra função crucial, que retorna os maiores ou menores valores. Você já sabe que podemos ordenar valores e então extrair um número específico de linhas. Não surpreendentemente, o **pandas** pode fazer isso usando apenas uma linha de código. Veja o exemplo de como recuperar os quinze carros mais antigos:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(15, 'Year')
print(data_smallest.head(15))

Se você quiser ordenar por uma coluna e depois por outra, basta colocar uma lista com os nomes das colunas na ordem desejada. Veja o exemplo em que ordenamos primeiro por `'Year'` e depois por `'Engine_volume'`. Este código irá extrair primeiro os `5` carros mais antigos e, caso os anos coincidam, o carro com o menor valor na coluna `'Engine_volume'` terá prioridade:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
data_smallest = data.nsmallest(5, ['Year', 'Engine_volume'])
print(data_smallest.head())

Tente comparar os dois exemplos abaixo. Agora vamos avançar um pouco mais na função. Vamos retornar nossos exemplos com os valores da coluna `'Year'`. Em nossa coluna, os valores de `'Year'` podem se repetir, então, se quisermos exibir os dez carros mais antigos com a sintaxe anterior, nossa função irá considerar apenas dez valores. Não importa se o 11º ou 12º valor é igual ao 10º. Podemos adicionar o argumento `keep = 'all'` ao método `.nsmallest()` para evitar esses casos. Observe o exemplo e tente executá-lo para ver a diferença:

import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case without using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year')
print(data_smallest)

data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv', index_col = 0)
# Case with using `keep = 'all'` argument
data_smallest = data.nsmallest(6, 'Year',
                             keep = 'all')
print(data_smallest)

import unittest
import pandas as pd
import io
import sys


def _dynamic_test(test_case, condition, success_msg, failure_msg):
    if condition:
        test_case._testMethodName = success_msg
        test_case.assertTrue(True, success_msg)
    else:
        test_case._testMethodName = failure_msg
        test_case.fail(failure_msg)


def frames_equal_ignore_col_order(df1, df2):
    """ÐÐµÑÐµÐ²ÑÑÑÑ ÑÑÐ²Ð½ÑÑÑÑ DataFrame Ð½ÐµÐ·Ð°Ð»ÐµÐ¶Ð½Ð¾ Ð²ÑÐ´ Ð¿Ð¾ÑÑÐ´ÐºÑ ÐºÐ¾Ð»Ð¾Ð½Ð¾Ðº."""
    if set(df1.columns) != set(df2.columns):
        return False
    common_cols = sorted(df1.columns)
    df1_sorted = df1[common_cols].reset_index(drop=True)
    df2_sorted = df2[common_cols].reset_index(drop=True)
    return df1_sorted.equals(df2_sorted)


class TestRetrieveYear(unittest.TestCase):
    def test_year_filter(self):
        """
        1. Retrieve data on cars where 'Year' > 2010.
        """
        import user_code
        df = pd.read_csv(
            "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/cars.csv",
            index_col=0,
        )
        ref = df.loc[df["Year"] > 2010]

        condition = (
            hasattr(user_code, "data_extracted")
            and isinstance(user_code.data_extracted, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_extracted, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_extracted' DataFrame correctly includes cars with Year > 2010.",
            "The filtering by Year > 2010 is incorrect. Check your .loc[] condition."
        )


class TestCheapestCars(unittest.TestCase):
    def test_cheapest_15(self):
        """
        2. Extract the 15 cheapest cars (including duplicates) using .nsmallest().
        """
        import user_code
        ref = user_code.data_extracted.nsmallest(15, "Price", keep="all")

        condition = (
            hasattr(user_code, "data_cheapest")
            and isinstance(user_code.data_cheapest, pd.DataFrame)
            and frames_equal_ignore_col_order(user_code.data_cheapest, ref)
        )

        _dynamic_test(
            self,
            condition,
            "The 'data_cheapest' DataFrame correctly includes the 15 cheapest cars (duplicates included).",
            "The extraction of the 15 cheapest cars is incorrect. Use .nsmallest(15, 'Price', keep='all')."
        )


class TestOutput(unittest.TestCase):
    def test_output_print(self):
        """
        3. Output all values of the 'data_cheapest' DataFrame.
        """
        import user_code

        captured_output = io.StringIO()
        sys.stdout = captured_output
        print(user_code.data_cheapest)
        sys.stdout = sys.__stdout__

        output_text = captured_output.getvalue().strip()
        condition = len(output_text) > 0
        _dynamic_test(
            self,
            condition,
            "The output displays all rows of 'data_cheapest' correctly.",
            "The 'data_cheapest' DataFrame is not printed. Use print(data_cheapest)."
        )


if __name__ == "__main__":
    unittest.main()


test_code.py

Este curso contém diversas funções úteis para um futuro analista de dados. Você aprenderá diferentes formas de extrair dados e até mesmo definir condições sobre eles. Após isso, estará familiarizado com os métodos de agrupamento de dados. Além disso, você aprenderá como pré-processar dados. Cada seção possui seu próprio conjunto de dados, tornando o curso envolvente.

Esta seção ensinará como exibir colunas específicas pelos seus títulos ou índices. Além disso, você se familiarizará com as formas de selecionar linhas por índices.

Aqui, você aprenderá como extrair dados que possuem condições específicas. Além disso, você aprenderá como combiná-las e até mesmo criar as suas próprias.

Nesta seção, você expandirá seu conhecimento sobre como definir diferentes condições de dados. Você aprenderá a verificar se seus dados estão em uma lista definida de valores ou entre dois valores. Você também aprenderá a encontrar os maiores e menores valores.

Esta seção é uma das mais fascinantes do curso. Aqui, você aprenderá como agrupar dados de diferentes maneiras. Isso ajudará no trabalho como analista de dados para obter informações sobre grupos de dados específicos.

Esta seção é uma das mais significativas para um analista de dados, pois, se os dados contiverem valores ausentes ou em formato incorreto, será impossível trabalhar com eles. Assim, você aprenderá como lidar com esses valores inadequados aqui.

Encontrando os Menores Valores de uma Coluna

Solução