Como calcular médias com a função Pandas mean()
A função DataFrame.mean() no Python Pandas é usada para calcular médias de um ou mais eixos de um DataFrame, sendo essencial em análises de dados numéricos. Além de registrar os valores médios, a função também oferece insights sobre a distribuição dos dados.
- Fique online com 99,99% de tempo de atividade e segurança robusta
- Aumente o desempenho com um clique à medida que o tráfego cresce
- Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana
Sintaxe da função Pandas DataFrame.mean()
A função Pandas mean() aceita a inclusão de até três parâmetros e tem a seguinte sintaxe:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonParâmetros da função Pandas mean()
É possível usar diferentes parâmetros para personalizar a função Pandas DataFrame.mean().
| Parâmetro | Descrição | Valor padrão |
|---|---|---|
axis
|
Especifica se o cálculo será feito nas linhas (axis=0) ou colunas (axis=1)
|
0
|
skipna
|
Se definido como verdadeiro (True), os valores NaN serão ignorados
|
True
|
numeric_only
|
Se definido como verdadeiro (True), apenas dados numéricos serão incluídos no cálculo
|
False
|
Como usar a função Pandas mean()
Você pode aplicar a função Pandas DataFrame.mean() em colunas e linhas.
Calcular valores médios em colunas
Primeiro, vamos criar um DataFrame no Pandas com alguns dados numéricos:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonEste será o DataFrame resultante:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Para calcular o valor médio de cada coluna, use a função Pandas mean(). Por padrão, o parâmetro axis é definido como 0, que corresponde às colunas.
medias_colunas = df.mean()
print(medias_colunas)pythonO código acima executará o cálculo da média de cada coluna (A, B e C) ao realizar a soma dos elementos contidos nelas e dividir o resultado pela quantidade de linhas. Dessa forma, a seguinte Series será produzida no Pandas:
A 2.5
B 5.5
C 8.5
dtype: float64Calcular valores médios em linhas
Caso precise descobrir o valor médio de uma linha, basta definir o parâmetro axis como 1:
medias_linhas = df.mean(axis=1)
print(medias_linhas)pythonA função Pandas mean() executará o cálculo da média de cada linha, dividindo a soma dos seus elementos pela quantidade de valores presentes. A chamada dessa função produzirá o seguinte resultado:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Administrar valores NaN
Neste exemplo, utilizaremos um DataFrame diferente, composto por alguns valores NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonO código acima produzirá o seguinte DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNAo calcular as médias das colunas, o parâmetro skipna determina se os valores NaN devem ser incluídos ou ignorados. Por padrão, ele é definido como verdadeiro (True), por isso, o comando em df.mean() ignora automaticamente os valores NaN. Caso deseje incluir os valores ausentes (NaN) no cálculo, defina skipna=False como parâmetro. Nesse caso, qualquer linha ou coluna que contenha pelo menos um NaN resultará em NaN como média.
media_com_nan = df.mean()
print(media_com_nan)pythonAo chamar a função df.mean(), o resultado será este:
A 2.333333
B 5.666667
C 8.000000
dtype: float64
