Kas ir pandas DataFrame describe() metode?
Python pandas funkcija DataFrame.describe() tiek izmantota, lai izveidotu statistisku kopsavilkumu par skaitliskajām kolonnām DataFrame. Šis kopsavilkums ietver galvenos statistiskos rādītājus, piemēram, vidējo, standarta novirzi, minimālo, maksimālo un dažādus procentiles.
Kāda ir pandas describe() funkcijas sintakse?
describe() pamat sintakse DataFrames ir vienkārša. Tā izskatās šādi:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonSvarīgi parametri pandām DataFrame.describe()
Izmantojot šādus parametrus, varat pielāgot describe() izvadi:
| Parametrs | Apraksts | Noklusējuma vērtība |
|---|---|---|
percentiles
|
Uzskaita procentiles, kas jāiekļauj kopsavilkumā | [.25, .5, .75]
|
include
|
Norāda, kādi datu tipi jāiekļauj aprakstā; iespējamās vērtības ir numpy.number, numpy.object, all vai None
|
None
|
exclude
|
Norāda, kurus datu tipus izslēgt no apraksta; funkcijas, piemēram, include parametrs
|
None
|
Piemēri, kā lietot pandas describe()
Ja jums nepieciešams ātrs pārskats par datu kopas galvenajiem statistiskajiem rādītājiem, pandas DataFrame.describe() funkcija ir ļoti noderīga.
1. piemērs: skaitlisko datu statistiskais kopsavilkums
Šajā piemērā apskatīsim DataFrame df, kas satur dažāda veida pārdošanas datus.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonTagad varat izmantot pandas describe(), lai iegūtu statistisko kopsavilkumu par skaitliskajiem datiem kolonnās:
summary = df.describe()
print(summary)pythonPandas DataFrame.describe() funkcijas izvade ir šāda:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Izvades rādītāji ir šādi:
count: NaN (nav skaitlis) ierakstu skaitsmean: Vidējā vērtība (pieejama arī ar DataFrame.mean())std: Vērtību standarta novirzemin,25%,50%,75%,max: minimālās, 25. percentiles, mediānas (50. percentiles), 75. percentiles un maksimālās vērtības
2. piemērs: Procentilu pielāgošana
Jūs varat pielāgot procentiles pandas DataFrame.describe() izvades ar percentiles parametru:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonŠis funkcijas izsaukums nodrošina šādu izvadi:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Rezultātā ir iekļauti 10%, 50 % un 90 % vietā standarta procentiles, kas bija iekļautas iepriekšējā piemērā.