Pode usar a função unique() da Bi­bli­o­teca Python Pandas para obter os valores únicos numa coluna de um DataFrame, o que lhe permitirá obter uma visão geral dos di­fe­ren­tes valores dentro de um conjunto de dados.

Sintaxe de DataFrame[].unique() em Pandas

A sintaxe básica para utilizar a função unique() do Pandas é simples, uma vez que esta função não aceita nenhum parâmetro adicional:

DataFrame['column_name'].unique()
python

Tenha em atenção que, nos Da­ta­Fra­mes do Pandas, a função unique() só pode ser aplicada a uma coluna es­pe­cí­fica do DataFrame. Portanto, deve es­pe­ci­fi­car a coluna antes de a utilizar. A função unique() gera uma matriz NumPy com os valores únicos na ordem em que aparecem, ou seja, não realiza qualquer ordenação dos valores.

Nota

Se já programa em Python há algum tempo, cer­ta­mente já conhece o equi­va­lente do NumPy à função unique() do Pandas. Re­co­men­da­mos usar a variante do Pandas, pois será mais eficiente neste caso.

Como usar o Pandas unique()

Para utilizar unique() nos Da­ta­Fra­mes do Pandas, deve es­pe­ci­fi­car a coluna na qual deseja procurar valores únicos.

No exemplo a seguir, mostramos um DataFrame com in­for­ma­ções sobre di­fe­ren­tes pessoas:

import pandas as pd
# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Alicia', 'Juan', 'Carlos', 'David', 'Eduardo'],
    'Edad': [24, 27, 22, 32, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona']
}
df = pd.DataFrame(data)
print(df)
python

O DataFrame re­sul­tante seria o seguinte:

Nombre    Edad       Ciudad
0    Alicia     24       Madrid
1     Juan     27    Barcelona
2    Carlos     22       Madrid
3    David     32     Valencia
4   Eduardo     29    Barcelona

Agora, se quiser iden­ti­fi­car as cidades onde essas pessoas vivem, ga­ran­tindo que cada cidade seja listada apenas uma vez, pode utilizar a função unique() do Pandas na coluna do DataFrame que contém as cidades:

# Encontrar ciudades únicas
unique_cities = df['Ciudad'].unique()
print(unique_cities)
python

O resultado é uma matriz NumPy que contém cada cidade apenas uma vez e mostra que as pessoas da lista são pro­ve­ni­en­tes de três cidades di­fe­ren­tes: Madrid, Barcelona e Valência.

['Madrid' 'Barcelona' 'Valencia']
Ir para o menu principal