A função DataFrame.mean() da Bi­bli­o­teca Python Pandas é utilizada para calcular o valor médio ao longo de um ou mais eixos de um DataFrame. O Pandas mean() é fun­da­men­tal para a análise de dados numéricos e pode fornecer in­for­ma­ções muito valiosas sobre a sua dis­tri­bui­ção.

Sintaxe do Pandas DataFrame.mean()

A funçãomean() aceita até três pa­râ­me­tros e segue uma sintaxe básica simples:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Pa­râ­me­tros re­le­van­tes

Com a ajuda de vários pa­râ­me­tros, pode ajustar o com­por­ta­mento da função Pandas DataFrame.mean() para se adequar às suas ne­ces­si­da­des.

Parâmetro Descrição Valor pre­de­fi­nido
axis Determina se o cálculo é feito ao longo das linhas (axis=0) ou das colunas (axis=1) 0
skipna Se for True, os valores NaN são ignorados True
numeric_only Se for True, apenas os dados numéricos são incluídos no cálculo False

Aplicação da função mean() do Pandas

O Pandas DataFrame.mean() tem diversas apli­ca­ções.

Calcular os valores médios de cada coluna

Nos exemplos a seguir, é utilizado um DataFrame do Pandas com os seguintes dados:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

O DataFrame re­sul­tante seria o seguinte:

A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
3  4  7 10

Para calcular o valor médio de cada coluna, pode-se usar a função Pandas mean() com o parâmetro padrão axis=0:

column_means = df.mean()
print(column_means)
python

Desta forma, calcula-se os valores médios de cada coluna (A, B e C) dividindo a soma dos elementos pelo número de elementos em cada coluna. Como resultado, obtém-se a seguinte série de Pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcular os valores médios de cada linha

Se, em vez disso, desejar calcular o valor médio de cada linha, basta alterar o parâmetro axis para 1:

row_means = df.mean(axis=1)
print(row_means)
python

Os valores médios de cada linha são cal­cu­la­dos uti­li­zando mean() do Pandas, dividindo a soma dos elementos pelo número de elementos em cada linha. A chamada à função gera o seguinte resultado:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Ignorar valores NaN

No exemplo seguinte, é utilizado um DataFrame diferente para conter alguns valores NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

O código anterior gera o seguinte DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Para calcular a média levando em con­si­de­ra­ção os valores NaN, utiliza-se o parâmetro skipna. O valor padrão é True, o que significa que o Pandas mean() ignora au­to­ma­ti­ca­mente os valores NaN. Por outro lado, se al­te­rás­se­mos o valor padrão para skipna=False, o cálculo da média de qualquer coluna que con­ti­vesse pelo menos um valor NaN re­sul­ta­ria em NaN para essa coluna.

mean_with_nan = df.mean()
print(mean_with_nan)
python

A chamada para a função mean() do Pandas gera:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Ir para o menu principal