Como limpar dados com a função Pandas dropna()

Tabela de Conteúdos

A função DataFrame.dropna() do Python Pandas é usada para remover todas as linhas ou colunas com valores ausentes (NaN) em um DataFrame. Isso a torna especialmente importante nos processos de preparação e limpeza de dados.

Hospedagem que se adapta às suas ambições

Fique online com 99,99% de tempo de atividade e segurança robusta
Aumente o desempenho com um clique à medida que o tráfego cresce
Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana

Qual é a sintaxe da função Pandas `dropna()`?

A função Pandas dropna() aceita a inclusão de até cinco parâmetros. Esta é sua sintaxe:

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False, ignore_index=False)

python

Parâmetros importantes da função Pandas `dropna()`

É possível usar parâmetros para influenciar o comportamento da função Pandas DataFrame.dropna(). Este é um resumo das opções mais importantes:

ParÃ¢metro	DescriÃ§Ã£o	Valor padrÃ£o
`axis`	Determina se as linhas (0 ou `index`) ou colunas (1 ou `columns`) serÃ£o removidas	0
`how`	Especifica se todos (`all`) ou alguns (`any`) valores devem ser NaN	`any`
`thresh`	Especifica o nÃºmero mÃnimo de valores que nÃ£o sÃ£o NaN que uma linha ou coluna deve ter para que eles nÃ£o sejam removidos. Se especificado, o parÃ¢metro `how` serÃ¡ ignorado	optional
`subset`	Especifica quais linhas ou colunas devem ser levadas em consideraÃ§Ã£o pela funÃ§Ã£o	optional
`inplace`	Determina se a operaÃ§Ã£o Ã© executada no DataFrame original	`False`
`ignore_index`	Se verdadeiro (`True`), os eixos restantes sÃ£o marcados de 0 a n-1	`False`

Como usar a função Pandas `DataFrame.dropna()`

A função Pandas dropna() é usada para limpar os dados antes de desempenhar uma análise. A remoção de linhas ou colunas com valores ausentes previne a ocorrência de vieses em avaliações estatísticas. Como os valores ausentes também podem gerar problemas de visualização de dados, o uso dessa função é vantajoso para produzir gráficos e relatórios.

Remover linhas com valores ausentes

No exemplo abaixo, temos um DataFrame com valores NaN (não numéricos):

import pandas as pd
import numpy as np
# Criar um DataFrame com dados de exemplo
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(df)

python

Este será o DataFrame resultante:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12

Em seguida, vamos aplicar a função Pandas dropna():

## Remover todas as linhas que contêm pelo menos um valor NaN
df_cleaned = df.dropna()
print(df_cleaned)

python

A execução do código acima produz este resultado:

A    B  C
0  1.0  5.0  9
3  4.0  8.0 12

Como as demais linhas continham valores NaN, apenas as linhas 0 e 3 foram exibidas.

Remover colunas com valores ausentes

Também é possível remover as colunas com valores ausentes ao definir o parâmetro axis como 1:

## Remover todas as colunas que contêm pelo menos um valor NaN
df_cleaned_columns = df.dropna(axis=1)
print(df_cleaned_columns)

python

A coluna C é a única que será exibida, pois não contém nenhum valor NaN:

Usar o parâmetro `thresh`

Se quiser remover as linhas que contêm menos que dois valores que não são NaN, use o parâmetro thresh:

## Manter apenas as linhas que têm 2 ou mais valores que não são NaN
df_thresh = df.dropna(thresh=2)
print(df_thresh)

python

A execução do código acima produz o seguinte resultado:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

A linha 2 foi removida porque continha menos de dois valores que não são NaN.

Usar o parâmetro `subset`

O parâmetro subset possibilita que você especifique as colunas nas quais a função deve procurar os valores ausentes. Somente linhas que contêm valores ausentes dentre as colunas especificadas serão removidas.

## Remover todas as linhas em que a coluna A contém um valor NaN
df_subset = df.dropna(subset=['A'])
print(df_subset)

python

Nesse caso, somente a linha 2 foi removida. O valor NaN na linha 1 foi ignorado devido ao parâmetro subset, que levou em consideração somente a coluna A:

A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
3  4.0  8.0  12

Como percorrer DataFrames com Pandas iterrows()

A função Pandas DataFrame.iterrows() é uma ferramenta útil para percorrer linhas de um DataFrame, principalmente nos casos em que processamentos de dados se fazem necessários. O Pandas iterrows() é especialmente útil para a realização de cálculos ou lógicas condicionais. Conheça…

Python Pandas

Leia mais

Mr. Kosalshutterstock

Como usar o Pandas DataFrame index no Python

O Pandas DataFrame index é uma poderosa ferramenta de manipulação de dados. Ao aplicar diferentes métodos, você poderá trabalhar com dados e subconjuntos específicos no seu DataFrame. Neste artigo, explicamos o que é o Pandas DataFrame index, como acessar dados em colunas e…

Python Pandas

Leia mais

Mr. Kosalshutterstock

O que é a função Pandas any() em Python e como ela funciona?

A função Pandas any() é uma ferramenta eficiente para verificar, com rapidez, se pelo menos um valor no DataFrame é verdadeiro. Ela é especialmente útil em processos de análise e validação de dados. Neste artigo, apresentamos a sintaxe dessa função, ensinamos você a usá-la e…

Python Pandas

Leia mais

ESB Professionalshutterstock

Pandas DataFrame: Manipular tabelas em Python

O módulo Pandas é uma das ferramentas mais poderosas para manipulação de dados em Python e uma de suas estruturas de dados centrais é o DataFrame. Com o Pandas DataFrame, é possível manipular dados estruturados bidimensionais de maneira eficiente e organizada. Vamos explicar, com…

Python Pandas

Leia mais

UndreyShutterstock

O que é a propriedade Pandas iloc[] em Python?

Ao trabalhar com DataFrames no Python Pandas, você perceberá que nem todas as linhas ou colunas são relevantes para uma análise de dados. A propriedade Pandas iloc[] é uma ferramenta útil para selecionar linhas ou colunas do DataFrame por meio de índices. Neste artigo,…

Python Pandas

Leia mais

REDPIXEL.PLShutterstock

Como calcular médias com a função Pandas mean()

A função Pandas `DataFrame.mean()` calcula médias em um DataFrame. Ela pode ser usada para descobrir os valores médios de linhas ou colunas, além de proporcionar flexibilidade para o gerenciamento de campos marcados como NaN. Neste artigo, vamos conhecer a sintaxe de Pandas…

Python Pandas

Leia mais

Como limpar dados com a função Pandas dropna()

Qual é a sintaxe da função Pandas dropna()?

Pa­râ­me­tros im­por­tan­tes da função Pandas dropna()

Como usar a função Pandas DataFrame.dropna()

Remover linhas com valores ausentes

Remover colunas com valores ausentes

Usar o parâmetro thresh

Usar o parâmetro subset

Qual é a sintaxe da função Pandas `dropna()`?

Parâmetros importantes da função Pandas `dropna()`

Como usar a função Pandas `DataFrame.dropna()`

Usar o parâmetro `thresh`

Usar o parâmetro `subset`