Πώς να υπολογίσετε μέσους όρους με τη συνάρτηση mean() της pandas
Η συνάρτηση DataFrame.mean() στην Python pandas χρησιμοποιείται για τον υπολογισμό μέσων όρων σε έναν ή περισσότερους άξονες ενός DataFrame. Η Pandas mean() είναι απαραίτητη για την ανάλυση αριθμητικών δεδομένων. Εκτός από τον υπολογισμό μέσων όρων, προσφέρει επίσης πληροφορίες σχετικά με την κατανομή των δεδομένων.
Ποια είναι η σύνταξη για DataFrame.mean();
Η συνάρτηση pandas mean() δέχεται έως τρεις παραμέτρους και έχει την ακόλουθη σύνταξη:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonΠοιες παράμετροι μπορούν να χρησιμοποιηθούν με το pandas Dataframe.mean;
Μπορείτε να χρησιμοποιήσετε διαφορετικές παραμέτρους για να προσαρμόσετε τον τρόπο λειτουργίας του pandas DataFrame.mean().
| Παράμετρος | Περιγραφή | Προεπιλεγμένη τιμή |
|---|---|---|
axis
|
Καθορίζει αν ο υπολογισμός γίνεται σε σειρές (axis=0) ή στήλες (axis=1)
|
0
|
skipna
|
Εάν οριστεί σε True, οι τιμές NaN θα αγνοηθούν.
|
True
|
numeric_only
|
Εάν οριστεί σε True, μόνο οι αριθμητικοί τύποι δεδομένων θα συμπεριληφθούν στον υπολογισμό.
|
False
|
Πώς να χρησιμοποιήσετε pandas mean()
Μπορείτε να εφαρμόσετε τη συνάρτηση pandas DataFrame.mean() τόσο σε στήλες όσο και σε σειρές.
Υπολογισμός μέσων τιμών για στήλες
Πρώτα, θα δημιουργήσουμε ένα DataFrame pandas με κάποια αριθμητικά δεδομένα:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonΤο τελικό DataFrame έχει την εξής μορφή:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Για να υπολογίσετε τον μέσο όρο κάθε στήλης, μπορείτε να χρησιμοποιήσετε τη συνάρτηση pandas mean(). Από προεπιλογή, η παράμετρος axis έχει οριστεί σε 0, που αντιστοιχεί στις στήλες.
column_means = df.mean()
print(column_means)pythonΟ παραπάνω κώδικας υπολογίζει τον μέσο όρο για κάθε στήλη (A, B και C) βρίσκοντας το άθροισμα των στοιχείων στην αντίστοιχη στήλη και στη συνέχεια διαιρώντας το με τον αριθμό των στοιχείων στη στήλη. Το αποτέλεσμα είναι η ακόλουθη σειρά pandas:
A 2.5
B 5.5
C 8.5
dtype: float64Υπολογισμός μέσων τιμών για σειρές
Αν θέλετε να βρείτε τον μέσο όρο για τις σειρές, απλά ορίστε την παράμετρο axis σε 1:
row_means = df.mean(axis=1)
print(row_means)pythonΤο Pandas mean() υπολογίζει τους μέσους όρους των σειρών διαιρώντας το άθροισμα των στοιχείων μιας σειράς με τον αριθμό των στοιχείων που έχει. Η κλήση της παραπάνω συνάρτησης παράγει το ακόλουθο αποτέλεσμα:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64Χειρισμός τιμών NaN
Σε αυτό το παράδειγμα, θα χρησιμοποιήσουμε ένα διαφορετικό DataFrame, το οποίο περιέχει τιμές NaN:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonΟ παραπάνω κώδικας παράγει το ακόλουθο DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNΚατά τον υπολογισμό των μέσων όρων για τις στήλες, η παράμετρος skipna καθορίζει εάν οι τιμές NaN πρέπει να συμπεριληφθούν ή να αγνοηθούν. Από προεπιλογή, skipna έχει οριστεί σε True, οπότε df.mean() αγνοεί αυτόματα τις τιμές NaN. Εάν θέλετε να συμπεριλάβετε τις τιμές NaN, πρέπει να προσθέσετε την παράμετρο skipna=False. Με αυτόν τον τρόπο, κάθε στήλη που περιέχει τουλάχιστον μία τιμή NaN θα επιστρέφει την τιμή NaN ως μέσο όρο.
mean_with_nan = df.mean()
print(mean_with_nan)pythonΗ κλήση df.mean() παράγει το ακόλουθο αποτέλεσμα:
A 2.333333
B 5.666667
C 8.000000
dtype: float64