In Python pandas kunt u de functie unique() gebruiken om unieke waarden in een kolom van een DataFrame te iden­ti­fi­ce­ren. Zo krijgt u snel een overzicht van de ver­schil­len­de waarden in uw dataset.

Wat is de syntaxis van pandas DataFrame[].unique()?

De ba­sis­syn­taxis voor het gebruik van pandas unique() is eenvoudig. Dit komt omdat de functie geen pa­ra­me­ters nodig heeft:

DataFrame['column_name'].unique()
python

Houd er rekening mee dat unique() slechts op één kolom kan worden toegepast. Voordat u de functie aanroept, moet u aangeven welke kolom u wilt evalueren. De functie unique() re­tour­neert een numpy-array met alle ver­schil­len­de waarden in de volgorde waarin ze voorkomen, waarbij dubbele waarden in de kolom worden ver­wij­derd. De waarden worden echter niet ge­sor­teerd.

Opmerking

Als u al een tijdje met Python werkt, bent u wellicht bekend met het numpy-equi­va­lent van pandas unique(). Omwille van de ef­fi­ci­ën­tie verdient de pandas-versie doorgaans de voorkeur.

Hoe gebruik je pandas DataFrame[].unique()?

Om unique() in een pandas DataFrame te gebruiken, moet u eerst de kolom spe­ci­fi­ce­ren die u wilt con­tro­le­ren. In het volgende voorbeeld gebruiken we een DataFrame met in­for­ma­tie over de leeftijd en woon­plaats van een groep personen.

import pandas as pd
# Create a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)
python

Het re­sul­te­ren­de DataFrame ziet er als volgt uit:

Name  	Age       City
0    Alice    	24    	Newcastle
1    Bob    	27  		London
2  Charlie    	22    	Newcastle
3    David    	32    	Cardiff
4   Edward    	29  		London

Stel dat we een lijst willen maken van alle steden waar de mensen in het DataFrame wonen. We kunnen de pandas unique() toepassen op de kolom die de steden bevat.

# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)
python

De uitvoer is een numpy-array die elke stad één keer vermeldt, waaruit blijkt dat de personen in het DataFrame afkomstig zijn uit in totaal drie steden: Newcastle, Londen en Cardiff.

['Newcastle' 'London' 'Cardiff']
Ga naar hoofdmenu