De functie DataFrame.mean() in Python pandas wordt gebruikt om ge­mid­del­den te berekenen over een of meer assen van een DataFrame. Pandas mean() is es­sen­ti­eel voor het ana­ly­se­ren van numerieke gegevens. Naast het berekenen van ge­mid­del­de waarden biedt het ook inzicht in de verdeling van gegevens.

Wat is de syntaxis voor DataFrame.mean()?

De functie pandas mean() ac­cep­teert maximaal drie pa­ra­me­ters en heeft de volgende syntaxis:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Welke pa­ra­me­ters kunnen worden gebruikt met pandas Dataframe.mean?

Je kunt ver­schil­len­de pa­ra­me­ters gebruiken om de werking van pandas DataFrame.mean() aan te passen.

Parameter Be­schrij­ving Stan­daard­waar­de
axis Geeft aan of de be­re­ke­ning wordt uit­ge­voerd over rijen (axis=0) of kolommen (axis=1) 0
skipna Indien ingesteld op True, worden NaN-waarden genegeerd. True
numeric_only Als ingesteld op True, worden alleen numerieke ge­ge­vens­ty­pen mee­ge­no­men in de be­re­ke­ning False

Hoe pandas mean() te gebruiken

Je kunt de functie pandas DataFrame.mean() toepassen op zowel kolommen als rijen.

Ge­mid­del­de waarden voor kolommen berekenen

Eerst gaan we een pandas DataFrame maken met wat numerieke gegevens:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Het re­sul­te­ren­de DataFrame ziet er als volgt uit:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Om het ge­mid­del­de van elke kolom te berekenen, kunt u de mean() functie gebruiken. Standaard is de parameter axis ingesteld op 0, wat over­een­komt met kolommen.

column_means = df.mean()
print(column_means)
python

De bo­ven­staan­de code berekent het ge­mid­del­de voor elke kolom (A, B en C) door de som van de elementen in de be­tref­fen­de kolom te berekenen en deze ver­vol­gens te delen door het aantal elementen in de kolom. Het resultaat is de volgende pandas-reeks:

A    2.5
B    5.5
C    8.5
dtype: float64

Ge­mid­del­de waarden voor rijen berekenen

Als u het ge­mid­del­de voor rijen wilt vinden, stelt u de parameter axis een­vou­dig­weg in op 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() berekent rij­ge­mid­del­den door de som van de elementen in een rij te delen door het aantal elementen dat deze rij bevat. Als je de bo­ven­staan­de functie aanroept, krijg je de volgende uitvoer:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Omgaan met NaN-waarden

In dit voorbeeld gebruiken we een ander DataFrame, dat NaN-waarden bevat:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

De bo­ven­staan­de code pro­du­ceert het volgende DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Bij het berekenen van de ge­mid­del­den voor kolommen bepaalt de parameter skipna of NaN-waarden moeten worden mee­ge­no­men of genegeerd. Standaard is skipna ingesteld op True, dus df.mean() negeert au­to­ma­tisch NaN-waarden. Als u NaN-waarden wilt meenemen, moet u skipna=False als parameter toevoegen. Hierdoor zal elke kolom met ten minste één NaN-waarde NaN als ge­mid­del­de re­tour­ne­ren.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Het aanroepen van df.mean() levert de volgende uitvoer op:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Ga naar hoofdmenu