Unika värden

Data dupliceras ofta i DataFrames. Till exempel har kolumnen countries i DataFrame 'continent' upprepade värden. Det finns en metod som hämtar en array med unika värden från en specifik DataFrame-kolumn.


              1234567
            
import pandas as pd 

country_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'],
          'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'],
          'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(country_data)
print(countries)

Applicera sedan metoden unique() på kolumnerna 'continent' och 'country':


              12345678910
            
import pandas as pd

country_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'],
          'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'],
          'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(country_data)
unique_countries = countries['country'].unique()
unique_continents = countries['continent'].unique()
print(unique_countries)
print(unique_continents)

Ibland, istället för att hämta alla unika värden, vill du kanske bara veta hur många distinkta värden som finns i en kolumn. I sådana fall kan du använda metoden nunique(). Den returnerar antalet unika poster i en kolumn — inte själva värdena.


              1234567
            
import pandas as pd

country_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'],
          'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'],
          'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(country_data)
print(countries['continent'].nunique())

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 15

single

Svep för att visa menyn

Data dupliceras ofta i DataFrames. Till exempel har kolumnen countries i DataFrame 'continent' upprepade värden. Det finns en metod som hämtar en array med unika värden från en specifik DataFrame-kolumn.


              1234567
            
import pandas as pd 

country_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'],
          'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'],
          'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(country_data)
print(countries)

Applicera sedan metoden unique() på kolumnerna 'continent' och 'country':


              12345678910
            
import pandas as pd

country_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'],
          'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'],
          'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(country_data)
unique_countries = countries['country'].unique()
unique_continents = countries['continent'].unique()
print(unique_countries)
print(unique_continents)

Ibland, istället för att hämta alla unika värden, vill du kanske bara veta hur många distinkta värden som finns i en kolumn. I sådana fall kan du använda metoden nunique(). Den returnerar antalet unika poster i en kolumn — inte själva värdena.


              1234567
            
import pandas as pd

country_data = {'country' : ['Thailand', 'Philippines', 'Monaco', 'Malta', 'Sweden', 'Paraguay', 'Latvia'],
          'continent' : ['Asia', 'Asia', 'Europe', 'Europe', 'Europe', 'South America', 'Europe'],
          'capital':['Bangkok', 'Manila', 'Monaco', 'Valletta', 'Stockholm', 'Asuncion', 'Riga']}
countries = pd.DataFrame(country_data)
print(countries['continent'].nunique())

Uppgift

Svep för att börja koda

Du har fått en DataFrame som heter audi_cars. Ditt mål är att utforska dess data och identifiera unika värden med hjälp av Pandas-metoder.

Hämta alla unika värden från kolumnen 'year' och spara dem i variabeln unique_years.
Hämta alla unika värden från kolumnen 'fueltype' och spara dem i variabeln unique_fueltype.
Fastställ antalet unika bränsletyper i kolumnen 'fueltype' med hjälp av metoden .nunique() och spara resultatet i variabeln count_unique_fueltypes.

Lösning

Byt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 3. Kapitel 15

single

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal