Python pandas’i funkt­siooni DataFrame.mean() ka­su­ta­takse keskmiste ar­vu­ta­miseks ühe või mitme DataFrame’i telje puhul. Pandas mean() on oluline numb­ri­liste andmete ana­lüü­si­miseks. Lisaks keskmiste väärtuste ar­vu­ta­misele pakub see ka ülevaadet andmete jao­tu­mi­sest.

Mis on DataFrame.mean() süntaxis?

Funkt­sioon pandas mean() võtab vastu kuni kolm pa­ra­meet­rit ja selle süntaks on järgmine:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Milliseid pa­ra­meetreid saab kasutada pandas Dataframe.mean-ga?

Saate kasutada erinevaid pa­ra­meetreid, et kohandada pandas DataFrame.mean() töötamist.

Pa­ra­mee­ter Kirjeldus Vaikimisi väärtus
axis Määrab, kas arvutus tehakse ridade (axis=0) või veergude (axis=1) põhjal. 0
skipna Kui on seatud True, ig­no­ree­ri­takse NaN väärtused. True
numeric_only Kui sea­dis­tada True, ar­ves­ta­takse ar­vu­ta­misel ainult numb­rilisi and­me­tüüpe. False

Kuidas kasutada pandas mean()

Funkt­siooni pandas DataFrame.mean() saab rakendada nii veer­gu­dele kui ka ridadele.

Veergude keskmiste väärtuste ar­vu­ta­mine

Esiteks loome pandas DataFrame’i mõningate numb­ri­liste andmetega:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Saadud and­me­raa­mis­tik näeb välja järgmine:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Iga veeru keskmise ar­vu­ta­miseks võite kasutada pandas mean() funkt­siooni. Vaikimisi on telje pa­ra­mee­ter seatud väär­tu­sele 0, mis vastab veer­gu­dele.

column_means = df.mean()
print(column_means)
python

Eespool toodud kood arvutab iga veeru (A, B ja C) keskmise, leides vastava veeru ele­men­tide summa ja jagades selle veeru ele­men­tide arvuga. Tu­le­mu­seks on järgmine pandas Series:

A    2.5
B    5.5
C    8.5
dtype: float64

Ridade keskmiste väärtuste ar­vu­ta­mine

Kui soovite leida ridade keskmise, seadke lihtsalt pa­ra­mee­ter axis väär­tu­seks 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() arvutab rea keskmised väärtused, jagades rea ele­men­tide summa selle ele­men­tide arvuga. Eespool nimetatud funkt­siooni kutsumine annab järgmise tulemuse:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

NaN-väärtuste kä­sit­le­mine

Selles näites kasutame teist­su­gust DataFrame’i, mis sisaldab NaN-väärtusi:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Eespool olev kood loob järgmise and­mes­tiku:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Veergude keskmiste ar­vu­ta­misel määrab pa­ra­mee­ter skipna, kas NaN-väärtused tuleks arvesse võtta või ig­no­ree­rida. Vaikimisi on skipna seatud väär­tu­seks True, seega ig­no­ree­rib df.mean() au­to­maat­selt NaN-väärtused. Kui soovite NaN-väärtusi arvesse võtta, peate lisama pa­ra­meet­rina skipna=False. Sel juhul tagastab iga veerg, milles on vähemalt üks NaN-väärtus, kesk­misena NaN-väärtuse.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Kõne df.mean() annab järgmise väljundi:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Go to Main Menu