Kas ir pandas DataFrame describe() metode?

Contents

Python pandas funkcija DataFrame.describe() tiek izmantota, lai izveidotu statistisku kopsavilkumu par skaitliskajām kolonnām DataFrame. Šis kopsavilkums ietver galvenos statistiskos rādītājus, piemēram, vidējo, standarta novirzi, minimālo, maksimālo un dažādus procentiles.

Kāda ir pandas `describe()` funkcijas sintakse?

describe() pamat sintakse DataFrames ir vienkārša. Tā izskatās šādi:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Svarīgi parametri pandām `DataFrame.describe()`

Izmantojot šādus parametrus, varat pielāgot describe() izvadi:

Parametrs	Apraksts	Noklusējuma vērtība
`percentiles`	Uzskaita procentiles, kas jāiekļauj kopsavilkumā	`[.25, .5, .75]`
`include`	Norāda, kādi datu tipi jāiekļauj aprakstā; iespējamās vērtības ir `numpy.number`, `numpy.object`, `all` vai `None`	`None`
`exclude`	Norāda, kurus datu tipus izslēgt no apraksta; funkcijas, piemēram, `include` parametrs	`None`

Piemēri, kā lietot pandas `describe()`

Ja jums nepieciešams ātrs pārskats par datu kopas galvenajiem statistiskajiem rādītājiem, pandas DataFrame.describe() funkcija ir ļoti noderīga.

1. piemērs: skaitlisko datu statistiskais kopsavilkums

Šajā piemērā apskatīsim DataFrame df, kas satur dažāda veida pārdošanas datus.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Tagad varat izmantot pandas describe(), lai iegūtu statistisko kopsavilkumu par skaitliskajiem datiem kolonnās:

summary = df.describe()
print(summary)

python

Pandas DataFrame.describe() funkcijas izvade ir šāda:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Izvades rādītāji ir šādi:

count: NaN (nav skaitlis) ierakstu skaits
mean: Vidējā vērtība (pieejama arī ar DataFrame.mean())
std: Vērtību standarta novirze
min, 25%, 50%, 75%, max: minimālās, 25. percentiles, mediānas (50. percentiles), 75. percentiles un maksimālās vērtības

2. piemērs: Procentilu pielāgošana

Jūs varat pielāgot procentiles pandas DataFrame.describe() izvades ar percentiles parametru:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Šis funkcijas izsaukums nodrošina šādu izvadi:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Rezultātā ir iekļauti 10%, 50 % un 90 % vietā standarta procentiles, kas bija iekļautas iepriekšējā piemērā.

Kā ielādēt failus Python ar pandas read_csv()

Python pandas read_csv() ir jaudīga funkcija, kas ļauj ātri un efektīvi piekļūt CSV failu saturam Python. Funkcija ir elastīga un piedāvā daudzveidīgus parametrus, tādējādi jūs varat pielāgot ielādes procesu savām vajadzībām. Pandas read_csv() izpratne ir būtiska, lai strādātu ar…

Mr. Kosalshutterstock

Kā indeksēt pandas DataFrames

Pandas DataFrame indeksēšana ir spēcīgs rīks efektīvai un produktīvai datu apstrādei. Izmantojot dažādas metodes, varat mērķēt uz konkrētiem datiem un DataFrame apakškopām. Šajā rakstā mēs izpētīsim, kas ir pandas DataFrame indekss, kā piekļūt kolonnu un rindu datiem, izmantojot…

BEST-BACKGROUNDSShutterstock

Kā tīrīt datus pandās ar dropna()

Pandas DataFrame.dropna() funkcija ir spēcīgs rīks datu kopu tīrīšanai. Funkcija efektīvi noņem trūkstošās vērtības un to var izmantot ar dažādiem parametriem, ļaujot programmētājiem noteikt dažādas prasības datu tīrīšanai. Uzziniet par šīs funkcijas sintaksi, parametriem un…

ESB Professionalshutterstock

Kā izmantot Pandas DataFrame, lai ātri apstrādātu tabulas Python

Pandas modulis ir viens no spēcīgākajiem datu apstrādes rīkiem Python. Viena no galvenajām datu struktūrām Pandas ir DataFrame. DataFrames var izmantot, lai efektīvi apstrādātu divdimensionālus strukturētus datus. Mēs izskaidrojam datu struktūras uzbūvi, kā arī tās īpašības un…

BEST-BACKGROUNDSShutterstock

Kā iziet cauri DataFrames ar pandas iterrows()

Pandas DataFrame.iterrows() ir noderīga funkcija, lai izietu cauri rindām DataFrame, it īpaši, ja jums ir nepieciešams apstrādāt datus rindu pa rindai. Tas ir īpaši noderīgi aprēķiniem vai nosacījumu loģikai. Šajā rakstā mēs apskatīsim panda iterrows() sintaksi un parādīsim, kā…

UndreyShutterstock

Kas ir Python pandas īpašība iloc[]?

Strādājot ar DataFrames Python pandas, ne visas DataFrame rindas vai kolonnas vienmēr ir svarīgas datu analīzei. Pandas DataFrame īpašība iloc[] ir noderīgs rīks rindu vai kolonnu atlasīšanai, izmantojot to indeksus. Šajā rakstā mēs apskatīsim iloc[] sintaksi un dažādus veidus,…

Kas ir pandas DataFrame describe() metode?

Kāda ir pandas describe() funkcijas sintakse?

Svarīgi parametri pandām DataFrame.describe()

Piemēri, kā lietot pandas describe()

1. piemērs: skait­lis­ko datu sta­tis­tis­kais kop­sa­vil­kums

2. piemērs: Pro­cen­ti­lu pie­lā­go­ša­na

Kāda ir pandas `describe()` funkcijas sintakse?

Svarīgi parametri pandām `DataFrame.describe()`

Piemēri, kā lietot pandas `describe()`

1. piemērs: skaitlisko datu statistiskais kopsavilkums

2. piemērs: Procentilu pielāgošana