Python pandas funkcija DataFrame.describe() tiek izmantota, lai izveidotu sta­tis­tis­ku kop­sa­vil­ku­mu par skait­lis­ka­jām kolonnām DataFrame. Šis kop­sa­vil­kums ietver galvenos sta­tis­tis­kos rādītājus, piemēram, vidējo, standarta novirzi, minimālo, maksimālo un dažādus pro­cen­ti­les.

Kāda ir pandas describe() funkcijas sintakse?

describe() pamat sintakse Da­taF­ra­mes ir vienkārša. Tā izskatās šādi:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Svarīgi parametri pandām DataFrame.describe()

Iz­man­to­jot šādus pa­ra­met­rus, varat pielāgot describe() izvadi:

Parametrs Apraksts No­klu­sē­ju­ma vērtība
percentiles Uzskaita pro­cen­ti­les, kas jāiekļauj kop­sa­vil­ku­mā [.25, .5, .75]
include Norāda, kādi datu tipi jāiekļauj aprakstā; ie­spē­ja­mās vērtības ir numpy.number, numpy.object, all vai None None
exclude Norāda, kurus datu tipus izslēgt no apraksta; funkcijas, piemēram, include parametrs None

Piemēri, kā lietot pandas describe()

Ja jums ne­pie­cie­šams ātrs pārskats par datu kopas gal­ve­na­jiem sta­tis­tis­ka­jiem rā­dī­tā­jiem, pandas DataFrame.describe() funkcija ir ļoti noderīga.

1. piemērs: skait­lis­ko datu sta­tis­tis­kais kop­sa­vil­kums

Šajā piemērā ap­ska­tī­sim DataFrame df, kas satur dažāda veida pār­do­ša­nas datus.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Tagad varat izmantot pandas describe(), lai iegūtu sta­tis­tis­ko kop­sa­vil­ku­mu par skait­lis­ka­jiem datiem kolonnās:

summary = df.describe()
print(summary)
python

Pandas DataFrame.describe() funkcijas izvade ir šāda:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Izvades rādītāji ir šādi:

  • count: NaN (nav skaitlis) ierakstu skaits
  • mean: Vidējā vērtība (pieejama arī ar DataFrame.mean())
  • std: Vērtību standarta novirze
  • min, 25%, 50%, 75%, max: minimālās, 25. per­cen­ti­les, mediānas (50. per­cen­ti­les), 75. per­cen­ti­les un mak­si­mā­lās vērtības

2. piemērs: Pro­cen­ti­lu pie­lā­go­ša­na

Jūs varat pielāgot pro­cen­ti­les pandas DataFrame.describe() izvades ar percentiles parametru:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Šis funkcijas izsaukums nodrošina šādu izvadi:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Rezultātā ir iekļauti 10%, 50 % un 90 % vietā standarta pro­cen­ti­les, kas bija iekļautas ie­priek­šē­jā piemērā.

Go to Main Menu