Hva er pandas DataFrame describe()-metoden?
Python pandas-funksjonen DataFrame.describe() brukes til å generere en statistisk oppsummering av de numeriske kolonnene i en DataFrame. Denne oppsummeringen inkluderer viktige statistiske målinger som gjennomsnitt, standardavvik, minimum, maksimum og forskjellige persentiler.
Hva er syntaksen for pandas’ describe() -funksjon?
Den grunnleggende syntaksen til describe() for DataFrames er enkel. Den ser slik ut:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonViktige parametere for pandas’ DataFrame.describe()
Ved hjelp av følgende parametere kan du justere utgangen på describe():
| Parameter | Beskrivelse | Standardverdi |
|---|---|---|
percentiles
|
Viser prosentilene som skal inkluderes i sammendraget | [.25, .5, .75]
|
include
|
Angir hvilke datatyper som skal inkluderes i beskrivelsen; mulige verdier er numpy.number, numpy.object, all eller None
|
None
|
exclude
|
Angir hvilke datatyper som skal ekskluderes fra beskrivelsen; fungerer som parameteren include.
|
None
|
Eksempler på hvordan du bruker pandas describe()
Hvis du trenger en rask oversikt over de viktigste statistiske målingene i et datasett, er pandas DataFrame.describe() -funksjonen svært nyttig.
Eksempel 1: Statistisk oppsummering av numeriske data
I det følgende eksemplet ser vi på DataFrame df, som inneholder forskjellige typer salgsdata.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNå kan du bruke pandas describe() til å få en statistisk oversikt over de numeriske dataene i kolonnene:
summary = df.describe()
print(summary)pythonUtgangen fra pandas DataFrame.describe() -funksjonen er som følger:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000De viktigste måleparametrene som vises i utdataene er:
count: Antall ikke-NaN-oppføringer (Not a Number)mean: Gjennomsnitt av verdiene (også tilgjengelig via DataFrame.mean())std: Standardavvik for verdienemin,25%,50%,75%,max: Minimum, 25. persentil, median (50. persentil), 75. persentil og maksimumsverdier
Eksempel 2: Tilpasse prosentiler
Du kan tilpasse prosentilene i pandas DataFrame.describe() -utdataene med parameteren percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonDenne funksjonskallen gir følgende utdata:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000I utdataene er 10%, 50 % og 90 % inkludert i stedet for standardprosentene i forrige eksempel.