I Python pandas kan du bruge funk­tio­nen unique() til at iden­ti­fi­ce­re unikke værdier i en kolonne i en DataFrame. Dette gør det nemt at få et hurtigt overblik over de for­skel­li­ge værdier i dit datasæt.

Hvad er syntaksen for pandas DataFrame[].unique()?

Den grund­læg­gen­de syntaks for brug af pandas unique() er enkel. Det skyldes, at funk­tio­nen ikke tager nogen parametre:

DataFrame['column_name'].unique()
python

Husk, at unique() kun kan anvendes på én kolonne. Inden du kalder funk­tio­nen, skal du angive, hvilken kolonne du vil evaluere. Funk­tio­nen unique() re­tur­ne­rer en numpy-matrix, der in­de­hol­der alle de for­skel­li­ge værdier i den ræk­ke­føl­ge, de vises, hvor dup­li­ke­re­de værdier i kolonnen er fjernet. Den sorterer dog ikke værdierne.

Note

Hvis du har arbejdet med Python i et stykke tid, er du måske bekendt med numpy-ækvi­va­len­ten til pandas unique(). Af ef­fek­ti­vi­tets­hen­syn fo­re­træk­kes pandas-versionen generelt.

Sådan bruges pandas DataFrame[].unique()

For at bruge unique() i en pandas DataFrame skal du først angive den kolonne, du vil kon­trol­le­re. I det følgende eksempel bruger vi en DataFrame, der in­de­hol­der op­lys­nin­ger om en gruppe personers alder og bopælsby.

import pandas as pd
# Create a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)
python

Den re­sul­te­ren­de DataFrame ser således ud:

Name  	Age       City
0    Alice    	24    	Newcastle
1    Bob    	27  		London
2  Charlie    	22    	Newcastle
3    David    	32    	Cardiff
4   Edward    	29  		London

Lad os nu sige, at vi vil oprette en liste over alle de byer, hvor per­so­ner­ne i DataFrame bor. Vi kan anvende unique() funk­tio­nen på den kolonne, der in­de­hol­der byerne.

# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)
python

Outputtet er en numpy-matrix, der viser hver by én gang og viser, at per­so­ner­ne i DataFrame kommer fra i alt tre byer: Newcastle, London og Cardiff.

['Newcastle' 'London' 'Cardiff']
Gå til ho­ved­me­nu­en