Kaip apskaičiuoti vidurkius naudojant pandas mean()
Python pandas DataFrame.mean() funkcija naudojama vidurkiams apskaičiuoti pagal vieną ar daugiau DataFrame ašių. Pandas mean() yra būtina skaitmeninių duomenų analizei. Be vidurkių apskaičiavimo, ji taip pat suteikia informacijos apie duomenų pasiskirstymą.
Kokia yra DataFrame.mean() sintaksė?
Funkcija pandas mean() priima iki trijų parametrų ir turi tokią sintaksę:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonKokie parametrai gali būti naudojami su pandas Dataframe.mean?
Galite naudoti įvairius parametrus, kad pritaikytumėte pandas DataFrame.mean() veikimą.
| Parametras | Aprašymas | Numatytasis vertė |
|---|---|---|
axis
|
Nurodo, ar skaičiavimas atliekamas pagal eilutes (axis=0) ar stulpelius (axis=1)
|
0
|
skipna
|
Jei nustatyta True, NaN reikšmės bus ignoruojamos.
|
True
|
numeric_only
|
Jei nustatoma True, į skaičiavimus bus įtraukti tik skaitmeniniai duomenų tipai.
|
False
|
Kaip naudoti pandas mean()
Pandas DataFrame.mean() funkciją galite taikyti tiek stulpeliams, tiek eilutėms.
Vidutinių stulpelių verčių skaičiavimas
Pirmiausia sukursime pandas DataFrame su keliais skaitiniais duomenimis:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonGautas duomenų rėmelis atrodo taip:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Norėdami apskaičiuoti kiekvienos stulpelio vidurkį, galite naudoti pandas mean() funkciją. Pagal numatytuosius nustatymus ašies parametras yra nustatytas kaip 0, kuris atitinka stulpelius.
column_means = df.mean()
print(column_means)pythonPateiktas kodas apskaičiuoja kiekvienos kolonos (A, B ir C) vidurkį, surandant atitinkamos kolonos elementų sumą ir padalijant ją iš kolonos elementų skaičiaus. Rezultatas yra toks pandas serijos:
A 2.5
B 5.5
C 8.5
dtype: float64Eilutės vidutinių verčių skaičiavimas
Jei norite rasti eilučių vidurkį, tiesiog nustatykite parametrą axis į 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() apskaičiuoja eilučių vidurkius, dalydamas eilutės elementų sumą iš elementų skaičiaus. Iššaukdami aukščiau pateiktą funkciją, gausime tokį rezultatą:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64NaN verčių tvarkymas
Šiame pavyzdyje naudosime kitą duomenų rėmelį, kuriame yra NaN reikšmės:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonPateiktas kodas sukuria tokį duomenų rėmelį:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNApskaičiuojant stulpelių vidurkius, parametras skipna nustato, ar NaN reikšmės turi būti įtrauktos, ar ignoruojamos. Pagal numatytuosius nustatymus skipna yra nustatytas kaip True, todėl df.mean() automatiškai ignoruoja NaN reikšmes. Jei norite įtraukti NaN reikšmes, turite pridėti skipna=False kaip parametrą. Tai padaryti, bet kuris stulpelis, kuriame yra bent viena NaN reikšmė, grąžins NaN kaip savo vidurkį.
mean_with_nan = df.mean()
print(mean_with_nan)pythonSkambinant df.mean() gaunamas toks rezultatas:
A 2.333333
B 5.666667
C 8.000000
dtype: float64