Kako izračunati povprečja s pandas mean()
Funkcija DataFrame.mean() v Python pandas se uporablja za izračun povprečij po eni ali več oseh DataFrame. Pandas mean() je bistven za analizo numeričnih podatkov. Poleg izračuna povprečnih vrednosti ponuja tudi vpogled v porazdelitev podatkov.
Kakšna je sintaksa za DataFrame.mean()?
Funkcija pandas mean() sprejme do tri parametre in ima naslednjo sintakso:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonKateri parametri se lahko uporabljajo s pandas Dataframe.mean?
Za prilagajanje delovanja pandas DataFrame.mean() lahko uporabite različne parametre.
| Parameter | Opis | Privzeta vrednost |
|---|---|---|
axis
|
Določa, ali se izračun izvede po vrsticah (axis=0) ali stolpcih (axis=1).
|
0
|
skipna
|
Če je nastavljeno na True, se vrednosti NaN ignorirajo.
|
True
|
numeric_only
|
Če je nastavljeno na True, bodo v izračun vključeni samo numerični podatkovni tipi.
|
False
|
Kako uporabljati pandas mean()
Funkcijo pandas DataFrame.mean() lahko uporabite za stolpce in vrstice.
Izračun povprečnih vrednosti za stolpce
Najprej bomo ustvarili pandas DataFrame z nekaterimi numeričnimi podatki:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonRezultatni DataFrame izgleda takole:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Za izračun povprečja vsakega stolpca lahko uporabite funkcijo pandas mean(). Privzeto je parameter osi nastavljen na 0, kar ustreza stolpcem.
column_means = df.mean()
print(column_means)pythonZgornja koda izračuna povprečje za vsak stolpec (A, B in C) tako, da poišče vsoto elementov v posameznem stolpcu in jo nato deli s številom elementov v stolpcu. Rezultat je naslednja pandas Series:
A 2.5
B 5.5
C 8.5
dtype: float64Izračun povprečnih vrednosti za vrstice
Če želite izračunati povprečje za vrstice, preprosto nastavite parameter axis na 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() izračuna povprečja vrstic tako, da vsoto elementov v vrstici deli s številom elementov, ki jih vsebuje. Klic funkcije zgoraj da naslednji izpis:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Obravnavanje vrednosti NaN
V tem primeru bomo uporabili drugačen DataFrame, ki vsebuje vrednosti NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonZgornja koda ustvari naslednji DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNPri izračunu povprečij za stolpce parameter skipna določa, ali naj se vrednosti NaN vključijo ali ignorirajo. Privzeto je skipna nastavljeno na True, tako da df.mean() samodejno ignorira vrednosti NaN. Če želite vključiti vrednosti NaN, morate dodati skipna=False kot parameter. S tem bo vsak stolpec z vsaj eno vrednostjo NaN vrnil NaN kot svojo srednjo vrednost.
mean_with_nan = df.mean()
print(mean_with_nan)pythonKlic df.mean() da naslednji izpis:
A 2.333333
B 5.666667
C 8.000000
dtype: float64