Funkcija DataFrame.mean() v Python pandas se uporablja za izračun povprečij po eni ali več oseh DataFrame. Pandas mean() je bistven za analizo nu­me­rič­nih podatkov. Poleg izračuna pov­preč­nih vrednosti ponuja tudi vpogled v po­raz­de­li­tev podatkov.

Kakšna je sintaksa za DataFrame.mean()?

Funkcija pandas mean() sprejme do tri parametre in ima naslednjo sintakso:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Kateri parametri se lahko upo­ra­blja­jo s pandas Dataframe.mean?

Za pri­la­ga­ja­nje delovanja pandas DataFrame.mean() lahko uporabite različne parametre.

Parameter Opis Privzeta vrednost
axis Določa, ali se izračun izvede po vrsticah (axis=0) ali stolpcih (axis=1). 0
skipna Če je na­sta­vlje­no na True, se vrednosti NaN igno­ri­ra­jo. True
numeric_only Če je na­sta­vlje­no na True, bodo v izračun vključeni samo numerični po­dat­kov­ni tipi. False

Kako upo­ra­blja­ti pandas mean()

Funkcijo pandas DataFrame.mean() lahko uporabite za stolpce in vrstice.

Izračun pov­preč­nih vrednosti za stolpce

Najprej bomo ustvarili pandas DataFrame z ne­ka­te­ri­mi nu­me­rič­ni­mi podatki:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Re­zul­ta­tni DataFrame izgleda takole:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Za izračun povprečja vsakega stolpca lahko uporabite funkcijo pandas mean(). Privzeto je parameter osi na­sta­vljen na 0, kar ustreza stolpcem.

column_means = df.mean()
print(column_means)
python

Zgornja koda izračuna povprečje za vsak stolpec (A, B in C) tako, da poišče vsoto elementov v po­sa­me­znem stolpcu in jo nato deli s številom elementov v stolpcu. Rezultat je naslednja pandas Series:

A    2.5
B    5.5
C    8.5
dtype: float64

Izračun pov­preč­nih vrednosti za vrstice

Če želite iz­ra­ču­na­ti povprečje za vrstice, preprosto nastavite parameter axis na 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() izračuna povprečja vrstic tako, da vsoto elementov v vrstici deli s številom elementov, ki jih vsebuje. Klic funkcije zgoraj da naslednji izpis:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Obrav­na­va­nje vrednosti NaN

V tem primeru bomo uporabili drugačen DataFrame, ki vsebuje vrednosti NaN:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Zgornja koda ustvari naslednji DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Pri izračunu povprečij za stolpce parameter skipna določa, ali naj se vrednosti NaN vključijo ali igno­ri­ra­jo. Privzeto je skipna na­sta­vlje­no na True, tako da df.mean() samodejno ignorira vrednosti NaN. Če želite vključiti vrednosti NaN, morate dodati skipna=False kot parameter. S tem bo vsak stolpec z vsaj eno vre­dno­stjo NaN vrnil NaN kot svojo srednjo vrednost.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Klic df.mean() da naslednji izpis:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Go to Main Menu