Hvordan beregne gjennomsnitt med pandas mean()
Funksjonen DataFrame.mean() i Python pandas brukes til å beregne gjennomsnitt over en eller flere akser i en DataFrame. Pandas mean() er viktig for å analysere numeriske data. I tillegg til å beregne gjennomsnittsverdier, gir den også innsikt i fordelingen av data.
Hva er syntaksen for DataFrame.mean()?
Funksjonen pandas mean() aksepterer opptil tre parametere og har følgende syntaks:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonHvilke parametere kan brukes med pandas Dataframe.mean?
Du kan bruke forskjellige parametere for å tilpasse hvordan pandas DataFrame.mean() fungerer.
| Parameter | Beskrivelse | Standardverdi |
|---|---|---|
axis
|
Angir om beregningen skal gjøres over rader (axis=0) eller kolonner (axis=1)
|
0
|
skipna
|
Hvis satt til True, vil NaN-verdier ignoreres.
|
True
|
numeric_only
|
Hvis satt til True, vil bare numeriske datatyper bli inkludert i beregningen.
|
False
|
Hvordan bruke pandas mean()
Du kan bruke DataFrame.mean() -funksjonen på både kolonner og rader.
Beregning av gjennomsnittsverdier for kolonner
Først skal vi opprette en pandas DataFrame med noen numeriske data:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonDen resulterende DataFrame ser slik ut:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10For å beregne gjennomsnittet for hver kolonne kan du bruke mean() -funksjonen. Som standard er parameteren axis satt til 0, som tilsvarer kolonner.
column_means = df.mean()
print(column_means)pythonKoden ovenfor beregner gjennomsnittet for hver kolonne (A, B og C) ved å finne summen av elementene i den respektive kolonnen og deretter dele den med antall elementer i kolonnen. Resultatet er følgende pandas-serie:
A 2.5
B 5.5
C 8.5
dtype: float64Beregning av gjennomsnittsverdier for rader
Hvis du vil finne gjennomsnittet for rader, setter du bare parameteren axis til 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() beregner radgjennomsnitt ved å dele summen av elementene i en rad med antall elementer den har. Når du kaller funksjonen ovenfor, får du følgende utdata:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Håndtering av NaN-verdier
I dette eksemplet bruker vi en annen DataFrame, som inneholder NaN-verdier:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonKoden ovenfor produserer følgende DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNNår gjennomsnittet for kolonner beregnes, avgjør parameteren skipna om NaN-verdier skal inkluderes eller ignoreres. Som standard er skipna satt til True, slik at df.mean() automatisk ignorerer NaN-verdier. Hvis du vil inkludere NaN-verdier, må du legge til skipna=False som parameter. Da vil alle kolonner med minst én NaN returnere NaN som gjennomsnitt.
mean_with_nan = df.mean()
print(mean_with_nan)pythonNår du ringer df.mean(), får du følgende utdata:
A 2.333333
B 5.666667
C 8.000000
dtype: float64