Calcule valores médios facilmente com Pandas mean()

Tabela de Conteúdos

A função DataFrame.mean() da Biblioteca Python Pandas é utilizada para calcular o valor médio ao longo de um ou mais eixos de um DataFrame. O Pandas mean() é fundamental para a análise de dados numéricos e pode fornecer informações muito valiosas sobre a sua distribuição.

Sintaxe do Pandas `DataFrame.mean()`

A funçãomean() aceita até três parâmetros e segue uma sintaxe básica simples:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)

python

Parâmetros relevantes

Com a ajuda de vários parâmetros, pode ajustar o comportamento da função Pandas DataFrame.mean() para se adequar às suas necessidades.

Parâmetro	Descrição	Valor predefinido
`axis`	Determina se o cálculo é feito ao longo das linhas (`axis=0`) ou das colunas (`axis=1`)	`0`
`skipna`	Se for `True`, os valores NaN são ignorados	`True`
`numeric_only`	Se for `True`, apenas os dados numéricos são incluídos no cálculo	`False`

Aplicação da função `mean()` do Pandas

O Pandas DataFrame.mean() tem diversas aplicações.

Calcular os valores médios de cada coluna

Nos exemplos a seguir, é utilizado um DataFrame do Pandas com os seguintes dados:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)

python

O DataFrame resultante seria o seguinte:

Para calcular o valor médio de cada coluna, pode-se usar a função Pandas mean() com o parâmetro padrão axis=0:

column_means = df.mean()
print(column_means)

python

Desta forma, calcula-se os valores médios de cada coluna (A, B e C) dividindo a soma dos elementos pelo número de elementos em cada coluna. Como resultado, obtém-se a seguinte série de Pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcular os valores médios de cada linha

Se, em vez disso, desejar calcular o valor médio de cada linha, basta alterar o parâmetro axis para 1:

row_means = df.mean(axis=1)
print(row_means)

python

Os valores médios de cada linha são calculados utilizando mean() do Pandas, dividindo a soma dos elementos pelo número de elementos em cada linha. A chamada à função gera o seguinte resultado:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Ignorar valores NaN

No exemplo seguinte, é utilizado um DataFrame diferente para conter alguns valores NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)

python

O código anterior gera o seguinte DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Para calcular a média levando em consideração os valores NaN, utiliza-se o parâmetro skipna. O valor padrão é True, o que significa que o Pandas mean() ignora automaticamente os valores NaN. Por outro lado, se alterássemos o valor padrão para skipna=False, o cálculo da média de qualquer coluna que contivesse pelo menos um valor NaN resultaria em NaN para essa coluna.

mean_with_nan = df.mean()
print(mean_with_nan)

python

A chamada para a função mean() do Pandas gera:

A    2.333333
B    5.666667
C    8.000000
dtype: float64

Como unir DataFrames com Pandas merge() em Python

A função Pandas DataFrame merge() oferece diferentes formas de combinar dados de várias fontes. Ao ajustar os parâmetros, pode realizar diferentes tipos de operações de junção, dependendo de como deseja analisar os dados. Neste artigo, explicamos como utilizar a função Pandas…

Leia mais

Mr. Kosalshutterstock

O método Pandas fillna() para substituir valores NaN

A função fillna() do Pandas é um método utilizado para gerir valores em falta. Oferece uma grande flexibilidade através da utilização de vários parâmetros que permitem adaptar a substituição dos valores NaN de acordo com as necessidades do utilizador. Neste artigo, irá conhecer…

Leia mais

Obter valores nulos com Pandas isna()

Pandas DataFrame isna() é útil para identificar os dados que faltam num DataFrame. Graças à sua sintaxe simples, permite obter rapidamente uma visão geral dos valores que faltam para que possa tomar as medidas adequadas para limpar os dados. Neste artigo, aprenderá exatamente…

Leia mais

BEST-BACKGROUNDSShutterstock

Pesquisar em DataFrames com Pandas isin()

Pandas isin() é uma função muito útil para a análise de dados. Com a sua sintaxe simples e múltiplas aplicações, permite verificar de forma rápida e eficiente se determinados valores estão presentes num DataFrame. Seja para verificar colunas específicas, filtrar DataFrames ou…

Leia mais

NDAB Creativityshutterstock

Como utilizar o método Pandas groupby()

A função DataFrame.groupby() do Pandas permite agrupar dados de acordo com diferentes critérios e realizar agregações complexas de forma eficiente. Se aplicar este método corretamente, poderá realizar análises de forma mais rápida e simples. Descubra tudo o que precisa aprender…

Leia mais

UndreyShutterstock

Obter valores únicos com Pandas unique()

A função Pandas DataFrame unique() pode ser utilizada para identificar rapidamente os valores únicos de uma coluna num DataFrame, algo muito útil para encontrar duplicados. Esta função facilita o manuseamento eficiente de grandes conjuntos de dados, pois devolve diretamente uma…

Leia mais

Calcule valores médios fa­cil­mente com Pandas mean()

Sintaxe do Pandas DataFrame.mean()

Pa­râ­me­tros re­le­van­tes

Aplicação da função mean() do Pandas

Calcular os valores médios de cada coluna

Calcular os valores médios de cada linha

Ignorar valores NaN

Calcule valores médios facilmente com Pandas mean()

Sintaxe do Pandas `DataFrame.mean()`

Parâmetros relevantes

Aplicação da função `mean()` do Pandas