Kā aprēķināt vidējos rādītājus ar pandas mean()
Python pandas DataFrame.mean() funkcija tiek izmantota, lai aprēķinātu vidējos rādītājus vienā vai vairākās DataFrame asīs. Pandas mean() ir būtiska skaitlisko datu analīzei. Papildus vidējo rādītāju aprēķināšanai tā sniedz arī ieskatu datu sadalījumā.
Kāda ir sintakse DataFrame.mean()?
Funkcija pandas mean() pieņem līdz trim parametriem un tās sintakse ir šāda:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonKādus parametrus var izmantot ar pandas Dataframe.mean?
Jūs varat izmantot dažādus parametrus, lai pielāgotu pandas DataFrame.mean() darbību.
| Parametrs | Apraksts | Noklusējuma vērtība |
|---|---|---|
axis
|
Norāda, vai aprēķins tiek veikts pa rindām (axis=0) vai kolonnām (axis=1)
|
0
|
skipna
|
Ja iestatīts uz True, NaN vērtības tiks ignorētas.
|
True
|
numeric_only
|
Ja iestatīts uz True, aprēķinā tiks iekļauti tikai skaitliskie datu tipi.
|
False
|
Kā lietot pandas mean()
Jūs varat piemērot pandas DataFrame.mean() funkciju gan kolonnām, gan rindām.
Vidējo vērtību aprēķināšana kolonnām
Vispirms izveidosim pandas DataFrame ar dažiem skaitliskajiem datiem:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonRezultātā iegūtais DataFrame izskatās šādi:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Lai aprēķinātu katras kolonnas vidējo vērtību, varat izmantot pandas mean() funkciju. Pēc noklusējuma ass parametrs ir iestatīts uz 0, kas atbilst kolonnām.
column_means = df.mean()
print(column_means)pythonIepriekš minētais kods aprēķina vidējo vērtību katrai kolonnai (A, B un C), aprēķinot attiecīgās kolonnas elementu summu un pēc tam dalot to ar elementu skaitu kolonnā. Rezultāts ir šāda pandas sērija:
A 2.5
B 5.5
C 8.5
dtype: float64Vidējo vērtību aprēķināšana rindām
Ja vēlaties atrast vidējo rindu skaitu, vienkārši iestatiet parametru axis uz 1:
row_means = df.mean(axis=1)
print(row_means)pythonPandas mean() aprēķina rindu vidējos, dalot rindas elementu summu ar elementu skaitu tajā. Izsaucot iepriekš minēto funkciju, tiek iegūts šāds rezultāts:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64NaN vērtību apstrāde
Šajā piemērā izmantosim citu DataFrame, kas satur NaN vērtības:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonIepriekš minētais kods rada šādu DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNAprēķinot kolonnas vidējos rādītājus, skipna parametrs nosaka, vai NaN vērtības ir jāiekļauj vai jāignorē. Pēc noklusējuma skipna ir iestatīts uz True, tādējādi df.mean() automātiski ignorē NaN vērtības. Ja vēlaties iekļaut NaN vērtības, kā parametru ir jāpievieno skipna=False. Tādējādi jebkura kolonna, kurā ir vismaz viena NaN vērtība, kā vidējo rādītāju atgriezīs NaN.
mean_with_nan = df.mean()
print(mean_with_nan)pythonZvanot uz df.mean(), tiek iegūts šāds rezultāts:
A 2.333333
B 5.666667
C 8.000000
dtype: float64