Python pandas DataFrame.mean() funkcija tiek izmantota, lai ap­rē­ķi­nā­tu vidējos rādītājus vienā vai vairākās DataFrame asīs. Pandas mean() ir būtiska skait­lis­ko datu analīzei. Papildus vidējo rādītāju ap­rē­ķi­nā­ša­nai tā sniedz arī ieskatu datu sa­da­lī­ju­mā.

Kāda ir sintakse DataFrame.mean()?

Funkcija pandas mean() pieņem līdz trim pa­ra­met­riem un tās sintakse ir šāda:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)
python

Kādus pa­ra­met­rus var izmantot ar pandas Dataframe.mean?

Jūs varat izmantot dažādus pa­ra­met­rus, lai pielāgotu pandas DataFrame.mean() darbību.

Parametrs Apraksts No­klu­sē­ju­ma vērtība
axis Norāda, vai aprēķins tiek veikts pa rindām (axis=0) vai kolonnām (axis=1) 0
skipna Ja iestatīts uz True, NaN vērtības tiks ignorētas. True
numeric_only Ja iestatīts uz True, aprēķinā tiks iekļauti tikai skait­lis­kie datu tipi. False

Kā lietot pandas mean()

Jūs varat piemērot pandas DataFrame.mean() funkciju gan kolonnām, gan rindām.

Vidējo vērtību ap­rē­ķi­nā­ša­na kolonnām

Vispirms iz­vei­do­sim pandas DataFrame ar dažiem skait­lis­ka­jiem datiem:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)
python

Rezultātā iegūtais DataFrame izskatās šādi:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Lai ap­rē­ķi­nā­tu katras kolonnas vidējo vērtību, varat izmantot pandas mean() funkciju. Pēc no­klu­sē­ju­ma ass parametrs ir iestatīts uz 0, kas atbilst kolonnām.

column_means = df.mean()
print(column_means)
python

Iepriekš minētais kods aprēķina vidējo vērtību katrai kolonnai (A, B un C), aprēķinot at­tie­cī­gās kolonnas elementu summu un pēc tam dalot to ar elementu skaitu kolonnā. Rezultāts ir šāda pandas sērija:

A    2.5
B    5.5
C    8.5
dtype: float64

Vidējo vērtību ap­rē­ķi­nā­ša­na rindām

Ja vēlaties atrast vidējo rindu skaitu, vienkārši iestatiet parametru axis uz 1:

row_means = df.mean(axis=1)
print(row_means)
python

Pandas mean() aprēķina rindu vidējos, dalot rindas elementu summu ar elementu skaitu tajā. Izsaucot iepriekš minēto funkciju, tiek iegūts šāds rezultāts:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

NaN vērtību apstrāde

Šajā piemērā iz­man­to­sim citu DataFrame, kas satur NaN vērtības:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)
python

Iepriekš minētais kods rada šādu DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Aprēķinot kolonnas vidējos rādītājus, skipna parametrs nosaka, vai NaN vērtības ir jāiekļauj vai jāignorē. Pēc no­klu­sē­ju­ma skipna ir iestatīts uz True, tādējādi df.mean() au­to­mā­tis­ki ignorē NaN vērtības. Ja vēlaties iekļaut NaN vērtības, kā parametru ir jā­pie­vie­no skipna=False. Tādējādi jebkura kolonna, kurā ir vismaz viena NaN vērtība, kā vidējo rādītāju atgriezīs NaN.

mean_with_nan = df.mean() 
print(mean_with_nan)
python

Zvanot uz df.mean(), tiek iegūts šāds rezultāts:

A    2.333333
B    5.666667
C    8.000000
dtype: float64
Go to Main Menu