De Python pandas-functie DataFrame.describe() wordt gebruikt om een sta­tis­tisch overzicht te genereren van de numerieke kolommen in een DataFrame. Dit overzicht bevat be­lang­rij­ke sta­tis­ti­sche maat­sta­ven zoals ge­mid­del­de, stan­daard­af­wij­king, minimum, maximum en ver­schil­len­de per­cen­tie­len.

Wat is de syntaxis voor de functie describe() van pandas?

De ba­sis­syn­taxis van describe() voor Da­taF­ra­mes is eenvoudig. Het ziet er als volgt uit:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Be­lang­rij­ke pa­ra­me­ters voor pandas’ DataFrame.describe()

Met behulp van de volgende pa­ra­me­ters kunt u de uitvoer van describe() aanpassen:

Parameter Be­schrij­ving Stan­daard­waar­de
percentiles Geeft een overzicht van de per­cen­tie­len die in het overzicht moeten worden opgenomen. [.25, .5, .75]
include Geeft aan welke ge­ge­vens­ty­pen in de be­schrij­ving moeten worden opgenomen; mogelijke waarden zijn numpy.number, numpy.object, all of None None
exclude Geeft aan welke ge­ge­vens­ty­pen moeten worden uit­ge­slo­ten van de be­schrij­ving; werkt hetzelfde als de parameter include. None

Voor­beel­den van het gebruik van pandas describe()

Als u snel een overzicht wilt krijgen van de be­lang­rijk­ste sta­tis­ti­sche gegevens van een dataset, is de functie pandas DataFrame.describe() uiterst nuttig.

Voorbeeld 1: Sta­tis­tisch overzicht van numerieke gegevens

In het volgende voorbeeld bekijken we DataFrame df, dat ver­schil­len­de soorten ver­koop­ge­ge­vens bevat.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nu kunt u pandas describe() gebruiken om een sta­tis­tisch overzicht te krijgen van de numerieke gegevens in de kolommen:

summary = df.describe()
print(summary)
python

De uitvoer van de functie pandas DataFrame.describe() is als volgt:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De be­lang­rijk­ste sta­tis­tie­ken die in de uitvoer worden weer­ge­ge­ven, zijn:

  • count: Aantal niet-NaN-ver­mel­din­gen (Not a Number)
  • mean: Ge­mid­del­de van de waarden (ook toe­gan­ke­lijk via DataFrame.mean())
  • std: Stan­daard­af­wij­king van de waarden
  • min, 25%, 50%, 75%, max: Minimum, 25e per­cen­tiel, mediaan (50e per­cen­tiel), 75e per­cen­tiel en maxi­mum­waar­den

Voorbeeld 2: Per­cen­tie­len aanpassen

U kunt de per­cen­tie­len in de pandas DataFrame.describe() -uitvoer aanpassen met de parameter percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Deze func­tie­aan­roep levert de volgende uitvoer op:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

In de uitvoer zijn 10%, 50% en 90% opgenomen in plaats van de stan­daard­per­cen­tie­len in het vorige voorbeeld.

Ga naar hoofdmenu