Funk­tio­nen DataFrame.mean() i Python pandas bruges til at beregne gen­nem­snit på tværs af en eller flere akser i en DataFrame. Pandas mean() er afgørende for analyse af numeriske data. Ud over at beregne gen­nem­snits­vær­di­er giver den også indsigt i da­ta­di­stri­bu­tio­nen.

Hvad er syntaksen for DataFrame.mean()?

Funk­tio­nen pandas mean() ac­cep­te­rer op til tre parametre og har følgende syntaks:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Hvilke parametre kan bruges med pandas Dataframe.mean?

Du kan bruge for­skel­li­ge parametre til at tilpasse, hvordan pandas DataFrame.mean() fungerer.

Parameter Be­skri­vel­se Stan­dard­vær­di
axis Angiver, om be­reg­nin­gen skal foretages over rækker (axis=0) eller kolonner (axis=1) 0
skipna Hvis indstil­let til True, ignoreres NaN-værdier. True
numeric_only Hvis indstil­let til True, vil kun numeriske datatyper blive in­klu­de­ret i be­reg­nin­gen. False

Sådan bruges pandas mean()

Du kan anvende pandas DataFrame.mean() -funk­tio­nen på både kolonner og rækker.

Beregning af gen­nem­snits­vær­di­er for kolonner

Først skal vi oprette en pandas DataFrame med nogle numeriske data:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Den re­sul­te­ren­de DataFrame ser således ud:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

For at beregne gen­nem­snit­tet for hver kolonne kan du bruge mean() -funk­tio­nen. Som standard er pa­ra­me­te­ren axis indstil­let til 0, hvilket svarer til kolonner.

column_means = df.mean()
print(column_means)
python

Oven­stå­en­de kode beregner gen­nem­snit­tet for hver kolonne (A, B og C) ved at finde summen af ele­men­ter­ne i den respek­ti­ve kolonne og derefter dividere den med antallet af elementer i kolonnen. Re­sul­ta­tet er følgende pandas-serie:

A    2.5
B    5.5
C    8.5
dtype: float64

Beregning af gen­nem­snits­vær­di­er for rækker

Hvis du vil finde gen­nem­snit­tet for rækker, skal du blot indstille pa­ra­me­te­ren axis til 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() beregner række gen­nem­snit ved at dividere summen af elementer i en række med antallet af elementer den har. Ved at kalde oven­stå­en­de funktion får man følgende output:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Hånd­te­ring af NaN-værdier

I dette eksempel bruger vi en anden DataFrame, der in­de­hol­der NaN-værdier:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Oven­stå­en­de kode genererer følgende DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Når gen­nem­snit­te­ne for kolonner beregnes, bestemmer pa­ra­me­te­ren skipna, om NaN-værdier skal medtages eller ignoreres. Som standard er skipna indstil­let til True, så df.mean() ignorerer au­to­ma­tisk NaN-værdier. Hvis du vil medtage NaN-værdier, skal du tilføje skipna=False som parameter. Hvis du gør det, vil alle kolonner med mindst én NaN returnere NaN som deres gen­nem­snit.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Opkald til df.mean() giver følgende output:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Gå til ho­ved­me­nu­en