Pandas DataFrame[].unique(): Filtrar valores distintos em colunas
O Python Pandas possibilita o uso da função unique()
para identificar valores únicos em uma coluna de um DataFrame. Esse método é eficiente para proporcionar uma visão geral dos diferentes valores presentes em um conjunto de dados.
Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!
- Domínio
- SSL Wildcard
- Suporte 24 horas
Sintaxe da função Pandas DataFrame[].unique()
A sintaxe básica da função Pandas DataFrame[].unique()
é simples, pois ela não aceita a inclusão de nenhum parâmetro:
Lembre-se de que a função unique()
só pode ser aplicada a uma coluna. Antes de chamá-la, você precisa indicar qual coluna deseja avaliar. A função unique()
retorna um array NumPy que contém todos os diferentes valores na ordem em que eles estão dispostos na coluna, removendo os duplicados. Ela não ordena os valores retornados.
Se você trabalha com Python há algum tempo, deve estar familiarizado com a versão da função Pandas unique()
oferecida pelo NumPy. Por questão de eficiência, é recomendável usar a versão oferecida pelo Pandas.
Como usar a função Pandas DataFrame[].unique()
Para usar a função unique()
em um DataFrame do Pandas, primeiro é necessário especificar a coluna que será verificada. No exemplo abaixo, vamos usar um DataFrame que contém a idade e a cidade de residência de um grupo de pessoas.
O DataFrame ficará assim:
Nome Idade Cidade
0 Alice 24 Curitiba
1 Breno 27 Salvador
2 Carlos 22 Curitiba
3 Denis 32 Teresina
4 Eduardo 29 Salvador
Agora, vamos imaginar que a nossa intenção é criar uma lista com todas as cidades presentes no DataFrame. Podemos aplicar a função Pandas DataFrame[].unique()
na coluna que contém os nomes das cidades.
O resultado será um array NumPy que lista cada cidade apenas uma vez, revelando que as pessoas do DataFrame vivem em três cidades diferentes: Curitiba, Salvador e Teresina.
['Curitiba' 'Salvador' 'Teresina']