Kuidas arvutada keskmisi pandas mean() abil
Python pandas’i funktsiooni DataFrame.mean() kasutatakse keskmiste arvutamiseks ühe või mitme DataFrame’i telje puhul. Pandas mean() on oluline numbriliste andmete analüüsimiseks. Lisaks keskmiste väärtuste arvutamisele pakub see ka ülevaadet andmete jaotumisest.
Mis on DataFrame.mean() süntaxis?
Funktsioon pandas mean() võtab vastu kuni kolm parameetrit ja selle süntaks on järgmine:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonMilliseid parameetreid saab kasutada pandas Dataframe.mean-ga?
Saate kasutada erinevaid parameetreid, et kohandada pandas DataFrame.mean() töötamist.
| Parameeter | Kirjeldus | Vaikimisi väärtus |
|---|---|---|
axis
|
Määrab, kas arvutus tehakse ridade (axis=0) või veergude (axis=1) põhjal.
|
0
|
skipna
|
Kui on seatud True, ignoreeritakse NaN väärtused.
|
True
|
numeric_only
|
Kui seadistada True, arvestatakse arvutamisel ainult numbrilisi andmetüüpe.
|
False
|
Kuidas kasutada pandas mean()
Funktsiooni pandas DataFrame.mean() saab rakendada nii veergudele kui ka ridadele.
Veergude keskmiste väärtuste arvutamine
Esiteks loome pandas DataFrame’i mõningate numbriliste andmetega:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonSaadud andmeraamistik näeb välja järgmine:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Iga veeru keskmise arvutamiseks võite kasutada pandas mean() funktsiooni. Vaikimisi on telje parameeter seatud väärtusele 0, mis vastab veergudele.
column_means = df.mean()
print(column_means)pythonEespool toodud kood arvutab iga veeru (A, B ja C) keskmise, leides vastava veeru elementide summa ja jagades selle veeru elementide arvuga. Tulemuseks on järgmine pandas Series:
A 2.5
B 5.5
C 8.5
dtype: float64Ridade keskmiste väärtuste arvutamine
Kui soovite leida ridade keskmise, seadke lihtsalt parameeter axis väärtuseks 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() arvutab rea keskmised väärtused, jagades rea elementide summa selle elementide arvuga. Eespool nimetatud funktsiooni kutsumine annab järgmise tulemuse:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64NaN-väärtuste käsitlemine
Selles näites kasutame teistsugust DataFrame’i, mis sisaldab NaN-väärtusi:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonEespool olev kood loob järgmise andmestiku:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNVeergude keskmiste arvutamisel määrab parameeter skipna, kas NaN-väärtused tuleks arvesse võtta või ignoreerida. Vaikimisi on skipna seatud väärtuseks True, seega ignoreerib df.mean() automaatselt NaN-väärtused. Kui soovite NaN-väärtusi arvesse võtta, peate lisama parameetrina skipna=False. Sel juhul tagastab iga veerg, milles on vähemalt üks NaN-väärtus, keskmisena NaN-väärtuse.
mean_with_nan = df.mean()
print(mean_with_nan)pythonKõne df.mean() annab järgmise väljundi:
A 2.333333
B 5.666667
C 8.000000
dtype: float64