Mikä on pandas DataFrame describe() -metodi?
Python pandas -funktiota DataFrame.describe() käytetään tuottamaan tilastollinen yhteenveto DataFrame-taulukon numeerisista sarakkeista. Tämä yhteenveto sisältää keskeisiä tilastollisia mittareita, kuten keskiarvon, keskihajonnan, minimin, maksimin ja erilaisia prosenttipisteitä.
Mikä on pandas-kirjaston describe() syntaksi?
DataFrame-taulukoiden describe() perusrakenteet ovat yksinkertaisia. Ne näyttävät tältä:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonPandas-kirjaston tärkeät parametrit DataFrame.describe()
Seuraavien parametrien avulla voit säätää describe():n ulostuloa:
| Parametri | Kuvaus | Oletusarvo |
|---|---|---|
percentiles
|
Luettelee yhteenvetoon sisällytettävät prosenttipisteet. | [.25, .5, .75]
|
include
|
Määrittää, mitkä tietotyypit sisällytetään kuvaukseen; mahdolliset arvot ovat numpy.number, numpy.object, all tai None.
|
None
|
exclude
|
Määrittää, mitkä tietotyypit jätetään pois kuvauksesta; toimii kuten parametri include.
|
None
|
Esimerkkejä pandas describe():n käytöstä
Jos tarvitset nopean yleiskatsauksen tietojoukon tärkeimmistä tilastollisista mittareista, pandas DataFrame.describe() -funktio on erittäin hyödyllinen.
Esimerkki 1: Numeraalisten tietojen tilastollinen yhteenveto
Seuraavassa esimerkissä tarkastelemme DataFrame dfää, joka sisältää erilaisia myyntitietoja.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNyt voit käyttää pandas describe() saadaksesi tilastollisen yhteenvedon sarakkeiden numeerisista tiedoista:
summary = df.describe()
print(summary)pythonPandas DataFrame.describe() -funktion tulos on seuraava:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Tuloksessa esitetyt keskeiset mittarit ovat:
count: Ei-NaN (ei luku) -merkintöjen lukumäärämean: Arvojen keskiarvo (saatavilla myös DataFrame.mean()-funktiolla)std: Arvojen keskihajontamin,25%,50%,75%,max: Minimi-, 25. prosenttipiste-, mediaani- (50. prosenttipiste), 75. prosenttipiste- ja maksimiarvot
Esimerkki 2: Prosenttipisteiden mukauttaminen
Voit mukauttaa pandas DataFrame.describe() -tuloksen prosenttipisteitä percentiles -parametrilla:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonTämä funktiokutsu tuottaa seuraavan tuloksen:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Tuloksessa on mukana 10%, 50 % ja 90 % edellisen esimerkin vakioprosenttipisteiden sijaan.