A função DataFrame.mean() no Python Pandas é usada para calcular médias de um ou mais eixos de um DataFrame, sendo essencial em análises de dados numéricos. Além de registrar os valores médios, a função também oferece insights sobre a distribuição dos dados.

Hospedagem web com consultor pessoal

Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!

  • Domínio
  • SSL Wildcard
  • Suporte 24 horas

Sintaxe da função Pandas DataFrame.mean()

A função Pandas mean() aceita a inclusão de até três parâmetros e tem a seguinte sintaxe:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Parâmetros da função Pandas mean()

É possível usar diferentes parâmetros para personalizar a função Pandas DataFrame.mean().

Parâmetro Descrição Valor padrão
axis Especifica se o cálculo será feito nas linhas (axis=0) ou colunas (axis=1) 0
skipna Se definido como verdadeiro (True), os valores NaN serão ignorados True
numeric_only Se definido como verdadeiro (True), apenas dados numéricos serão incluídos no cálculo False

Como usar a função Pandas mean()

Você pode aplicar a função Pandas DataFrame.mean() em colunas e linhas.

Calcular valores médios em colunas

Primeiro, vamos criar um DataFrame no Pandas com alguns dados numéricos:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Este será o DataFrame resultante:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Para calcular o valor médio de cada coluna, use a função Pandas mean(). Por padrão, o parâmetro axis é definido como 0, que corresponde às colunas.

medias_colunas = df.mean()
print(medias_colunas)
python

O código acima executará o cálculo da média de cada coluna (A, B e C) ao realizar a soma dos elementos contidos nelas e dividir o resultado pela quantidade de linhas. Dessa forma, a seguinte Series será produzida no Pandas:

A    2.5
B    5.5
C    8.5
dtype: float64

Calcular valores médios em linhas

Caso precise descobrir o valor médio de uma linha, basta definir o parâmetro axis como 1:

medias_linhas = df.mean(axis=1)
print(medias_linhas)
python

A função Pandas mean() executará o cálculo da média de cada linha, dividindo a soma dos seus elementos pela quantidade de valores presentes. A chamada dessa função produzirá o seguinte resultado:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Administrar valores NaN

Neste exemplo, utilizaremos um DataFrame diferente, composto por alguns valores NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

O código acima produzirá o seguinte DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Ao calcular as médias das colunas, o parâmetro skipna determina se os valores NaN devem ser incluídos ou ignorados. Por padrão, ele é definido como verdadeiro (True), por isso, o comando em df.mean() ignora automaticamente os valores NaN. Caso deseje incluir os valores ausentes (NaN) no cálculo, defina skipna=False como parâmetro. Nesse caso, qualquer linha ou coluna que contenha pelo menos um NaN resultará em NaN como média.

media_com_nan = df.mean() 
print(media_com_nan)
python

Ao chamar a função df.mean(), o resultado será este:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Este artigo foi útil?
Ir para o menu principal