Pandas DataFrame[].unique(): Filtrar valores distintos em colunas
O Python Pandas possibilita o uso da função unique() para identificar valores únicos em uma coluna de um DataFrame. Esse método é eficiente para proporcionar uma visão geral dos diferentes valores presentes em um conjunto de dados.
- Fique online com 99,99% de tempo de atividade e segurança robusta
- Aumente o desempenho com um clique à medida que o tráfego cresce
- Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana
Sintaxe da função Pandas DataFrame[].unique()
A sintaxe básica da função Pandas DataFrame[].unique() é simples, pois ela não aceita a inclusão de nenhum parâmetro:
DataFrame['nome_coluna'].unique()pythonLembre-se de que a função unique() só pode ser aplicada a uma coluna. Antes de chamá-la, você precisa indicar qual coluna deseja avaliar. A função unique() retorna um array NumPy que contém todos os diferentes valores na ordem em que eles estão dispostos na coluna, removendo os duplicados. Ela não ordena os valores retornados.
Se você trabalha com Python há algum tempo, deve estar familiarizado com a versão da função Pandas unique() oferecida pelo NumPy. Por questão de eficiência, é recomendável usar a versão oferecida pelo Pandas.
Como usar a função Pandas DataFrame[].unique()
Para usar a função unique() em um DataFrame do Pandas, primeiro é necessário especificar a coluna que será verificada. No exemplo abaixo, vamos usar um DataFrame que contém a idade e a cidade de residência de um grupo de pessoas.
import pandas as pd
# Criar um DataFrame de exemplo
data = {
'Nome': ['Alice' , 'Breno', 'Carlos', 'Denis', 'Eduardo'],
'Idade': [24, 27, 22, 32, 29],
'Cidade': ['Curitiba', 'Salvador', 'Curitiba', 'Teresina', 'Salvador']
}
df = pd.DataFrame(data)
print(df)pythonO DataFrame ficará assim:
Nome Idade Cidade
0 Alice 24 Curitiba
1 Breno 27 Salvador
2 Carlos 22 Curitiba
3 Denis 32 Teresina
4 Eduardo 29 SalvadorAgora, vamos imaginar que a nossa intenção é criar uma lista com todas as cidades presentes no DataFrame. Podemos aplicar a função Pandas DataFrame[].unique() na coluna que contém os nomes das cidades.
# Encontrar cidades diferentes
cidades_diferentes = df['Cidade'].unique()
print(cidades_diferentes)pythonO resultado será um array NumPy que lista cada cidade apenas uma vez, revelando que as pessoas do DataFrame vivem em três cidades diferentes: Curitiba, Salvador e Teresina.
['Curitiba' 'Salvador' 'Teresina']
