Calcule valores médios facilmente com Pandas mean()
A função DataFrame.mean() da Biblioteca Python Pandas é utilizada para calcular o valor médio ao longo de um ou mais eixos de um DataFrame. O Pandas mean() é fundamental para a análise de dados numéricos e pode fornecer informações muito valiosas sobre a sua distribuição.
Sintaxe do Pandas DataFrame.mean()
A funçãomean() aceita até três parâmetros e segue uma sintaxe básica simples:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonParâmetros relevantes
Com a ajuda de vários parâmetros, pode ajustar o comportamento da função Pandas DataFrame.mean() para se adequar às suas necessidades.
| Parâmetro | Descrição | Valor predefinido |
|---|---|---|
axis
|
Determina se o cálculo é feito ao longo das linhas (axis=0) ou das colunas (axis=1)
|
0
|
skipna
|
Se for True, os valores NaN são ignorados
|
True
|
numeric_only
|
Se for True, apenas os dados numéricos são incluídos no cálculo
|
False
|
Aplicação da função mean() do Pandas
O Pandas DataFrame.mean() tem diversas aplicações.
Calcular os valores médios de cada coluna
Nos exemplos a seguir, é utilizado um DataFrame do Pandas com os seguintes dados:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonO DataFrame resultante seria o seguinte:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Para calcular o valor médio de cada coluna, pode-se usar a função Pandas mean() com o parâmetro padrão axis=0:
column_means = df.mean()
print(column_means)pythonDesta forma, calcula-se os valores médios de cada coluna (A, B e C) dividindo a soma dos elementos pelo número de elementos em cada coluna. Como resultado, obtém-se a seguinte série de Pandas:
A 2.5
B 5.5
C 8.5
dtype: float64Calcular os valores médios de cada linha
Se, em vez disso, desejar calcular o valor médio de cada linha, basta alterar o parâmetro axis para 1:
row_means = df.mean(axis=1)
print(row_means)pythonOs valores médios de cada linha são calculados utilizando mean() do Pandas, dividindo a soma dos elementos pelo número de elementos em cada linha. A chamada à função gera o seguinte resultado:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Ignorar valores NaN
No exemplo seguinte, é utilizado um DataFrame diferente para conter alguns valores NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonO código anterior gera o seguinte DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNPara calcular a média levando em consideração os valores NaN, utiliza-se o parâmetro skipna. O valor padrão é True, o que significa que o Pandas mean() ignora automaticamente os valores NaN. Por outro lado, se alterássemos o valor padrão para skipna=False, o cálculo da média de qualquer coluna que contivesse pelo menos um valor NaN resultaria em NaN para essa coluna.
mean_with_nan = df.mean()
print(mean_with_nan)pythonA chamada para a função mean() do Pandas gera:
A 2.333333
B 5.666667
C 8.000000
dtype: float64