A função DataFrame.describe() da Bi­bli­o­teca Python Pandas serve para gerar um resumo es­ta­tís­tico das colunas numéricas de um DataFrame. Esse resumo inclui in­di­ca­do­res es­ta­tís­ti­cos im­por­tan­tes, como média, desvio padrão, mínimo, máximo e vários quantis dos dados.

Sintaxe de describe() em Pandas

A sintaxe básica da função describe() no Pandas não é com­pli­cada e é a seguinte:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Pa­râ­me­tros re­le­van­tes

Com a ajuda de alguns pa­râ­me­tros, poderá realizar ajustes na saída da função describe(). Esses pa­râ­me­tros são:

Parâmetro Descrição Valor padrão
percentiles Enumera os quantis desejados que devem ser incluídos na descrição [.25, .5, .75]
include Determine quais tipos de dados devem ser incluídos na descrição. Os valores podem ser numpy.number, numpy.object, all ou None None
exclude Determina quais tipos de dados devem ser excluídos da descrição. Os valores são análogos aos de include None

Uti­li­za­ção de describe() em Pandas

O método DataFrame.describe() do Pandas é usado prin­ci­pal­mente para obter ra­pi­da­mente os prin­ci­pais in­di­ca­do­res es­ta­tís­ti­cos de um conjunto de dados.

Exemplo 1: Resumo es­ta­tís­tico de dados numéricos

No exemplo seguinte, é analisado o DataFrame df, que contém uma série de dados de vendas:

import pandas as pd
import numpy as np
# Ejemplo de DataFrame con datos de ventas
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Em seguida, podemos usar describe() do Pandas para obter um resumo es­ta­tís­tico das colunas numéricas:

summary = df.describe()
print(summary)
python

A chamada para a função DataFrame.describe() gera o seguinte resultado:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Estes números têm o seguinte sig­ni­fi­cado:

  • count: quan­ti­dade de entradas não NaN
  • mean: média dos valores (também visível com DataFrame.mean())
  • std: desvio padrão dos valores
  • min, 25%, 50%, 75%, max: mínimo, percentil 25, mediana (percentil 50), percentil 75, máximo dos valores

Exemplo 2: Ajuste dos quantis

Pode ajustar a função DataFrame.describe() do Pandas com os pa­râ­me­tros descritos an­te­ri­or­mente para incluir quartis es­pe­cí­fi­cos.

# Resumen estadístico con cuantiles ajustados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

A partir dos quantis que es­co­lhe­mos, ou seja, 10 %, 50 % (mediana) e 90 %, a chamada da função fornece o seguinte resultado:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Ir para o menu principal