Python pandas DataFrame.mean() funkcija naudojama vi­dur­kiams ap­skai­čiuo­ti pagal vieną ar daugiau DataFrame ašių. Pandas mean() yra būtina skait­me­ni­nių duomenų analizei. Be vidurkių ap­skai­čia­vi­mo, ji taip pat suteikia in­for­ma­ci­jos apie duomenų pa­si­skirs­ty­mą.

Kokia yra DataFrame.mean() sintaksė?

Funkcija pandas mean() priima iki trijų parametrų ir turi tokią sintaksę:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Kokie pa­ra­met­rai gali būti naudojami su pandas Dataframe.mean?

Galite naudoti įvairius pa­ra­met­rus, kad pri­tai­ky­tu­mė­te pandas DataFrame.mean() veikimą.

Pa­ra­met­ras Aprašymas Nu­ma­ty­ta­sis vertė
axis Nurodo, ar skai­čia­vi­mas at­lie­ka­mas pagal eilutes (axis=0) ar stul­pe­lius (axis=1) 0
skipna Jei nustatyta True, NaN reikšmės bus ig­no­ruo­ja­mos. True
numeric_only Jei nustatoma True, į skai­čia­vi­mus bus įtraukti tik skait­me­ni­niai duomenų tipai. False

Kaip naudoti pandas mean()

Pandas DataFrame.mean() funkciją galite taikyti tiek stul­pe­liams, tiek eilutėms.

Vidutinių stulpelių verčių skai­čia­vi­mas

Pir­miau­sia sukursime pandas DataFrame su keliais skai­ti­niais duo­me­ni­mis:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Gautas duomenų rėmelis atrodo taip:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Norėdami ap­skai­čiuo­ti kiek­vie­nos stulpelio vidurkį, galite naudoti pandas mean() funkciją. Pagal nu­ma­ty­tuo­sius nu­sta­ty­mus ašies pa­ra­met­ras yra nu­sta­ty­tas kaip 0, kuris atitinka stul­pe­lius.

column_means = df.mean()
print(column_means)
python

Pateiktas kodas ap­skai­čiuo­ja kiek­vie­nos kolonos (A, B ir C) vidurkį, surandant ati­tin­ka­mos kolonos elementų sumą ir pa­da­li­jant ją iš kolonos elementų skaičiaus. Re­zul­ta­tas yra toks pandas serijos:

A    2.5
B    5.5
C    8.5
dtype: float64

Eilutės vidutinių verčių skai­čia­vi­mas

Jei norite rasti eilučių vidurkį, tiesiog nu­sta­ty­ki­te parametrą axis į 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() ap­skai­čiuo­ja eilučių vidurkius, dalydamas eilutės elementų sumą iš elementų skaičiaus. Iš­šauk­da­mi aukščiau pateiktą funkciją, gausime tokį rezultatą:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

NaN verčių tvarkymas

Šiame pavyzdyje naudosime kitą duomenų rėmelį, kuriame yra NaN reikšmės:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Pateiktas kodas sukuria tokį duomenų rėmelį:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Ap­skai­čiuo­jant stulpelių vidurkius, pa­ra­met­ras skipna nustato, ar NaN reikšmės turi būti įtrauktos, ar ig­no­ruo­ja­mos. Pagal nu­ma­ty­tuo­sius nu­sta­ty­mus skipna yra nu­sta­ty­tas kaip True, todėl df.mean() au­to­ma­tiš­kai ignoruoja NaN reikšmes. Jei norite įtraukti NaN reikšmes, turite pridėti skipna=False kaip parametrą. Tai padaryti, bet kuris stulpelis, kuriame yra bent viena NaN reikšmė, grąžins NaN kaip savo vidurkį.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Skam­bi­nant df.mean() gaunamas toks re­zul­ta­tas:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Go to Main Menu