Hvad er pandas DataFrame describe()-metoden?
Python pandas-funktionen DataFrame.describe() bruges til at generere en statistisk oversigt over de numeriske kolonner i en DataFrame. Denne oversigt indeholder vigtige statistiske målinger som gennemsnit, standardafvigelse, minimum, maksimum og forskellige percentiler.
Hvad er syntaksen for pandas’ describe() -funktion?
Den grundlæggende syntaks for describe() for DataFrames er enkel. Den ser således ud:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonVigtige parametre for pandas’ DataFrame.describe()
Ved hjælp af følgende parametre kan du justere outputtet på describe():
| Parameter | Beskrivelse | Standardværdi |
|---|---|---|
percentiles
|
Viser de percentiler, der skal medtages i oversigten. | [.25, .5, .75]
|
include
|
Angiver, hvilke datatyper der skal medtages i beskrivelsen; mulige værdier er numpy.number, numpy.object, all eller None
|
None
|
exclude
|
Angiver, hvilke datatyper der skal udelades fra beskrivelsen; fungerer som parameteren include.
|
None
|
Eksempler på brug af pandas describe()
Hvis du har brug for et hurtigt overblik over de vigtigste statistiske målinger i et datasæt, er pandas DataFrame.describe() -funktionen yderst nyttig.
Eksempel 1: Statistisk oversigt over numeriske data
I det følgende eksempel ser vi på DataFrame df, som indeholder forskellige typer salgsdata.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNu kan du bruge pandas describe() til at få et statistisk resumé af de numeriske data i kolonnerne:
summary = df.describe()
print(summary)pythonOutputtet fra pandas DataFrame.describe() -funktionen er som følger:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000De vigtigste målinger, der vises i outputtet, er:
count: Antal ikke-NaN-poster (Not a Number)mean: Gennemsnit af værdierne (kan også tilgås via DataFrame.mean())std: Standardafvigelse for værdiernemin,25%,50%,75%,max: Minimum, 25. percentil, median (50. percentil), 75. percentil og maksimumsværdier
Eksempel 2: Tilpasning af percentiler
Du kan tilpasse percentilerne i DataFrame.describe() 35-outputtet med parameteren percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonDette funktionskald giver følgende output:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000I outputtet er 10%, 50 % og 90 % inkluderet i stedet for standardpercentilerne i det foregående eksempel.