Guia rápido sobre o método Pandas describe()
A função DataFrame.describe() da Biblioteca Python Pandas serve para gerar um resumo estatístico das colunas numéricas de um DataFrame. Esse resumo inclui indicadores estatísticos importantes, como média, desvio padrão, mínimo, máximo e vários quantis dos dados.
Sintaxe de describe() em Pandas
A sintaxe básica da função describe() no Pandas não é complicada e é a seguinte:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonParâmetros relevantes
Com a ajuda de alguns parâmetros, poderá realizar ajustes na saída da função describe(). Esses parâmetros são:
| Parâmetro | Descrição | Valor padrão |
|---|---|---|
percentiles
|
Enumera os quantis desejados que devem ser incluídos na descrição | [.25, .5, .75]
|
include
|
Determine quais tipos de dados devem ser incluídos na descrição. Os valores podem ser numpy.number, numpy.object, all ou None
|
None
|
exclude
|
Determina quais tipos de dados devem ser excluídos da descrição. Os valores são análogos aos de include
|
None
|
Utilização de describe() em Pandas
O método DataFrame.describe() do Pandas é usado principalmente para obter rapidamente os principais indicadores estatísticos de um conjunto de dados.
Exemplo 1: Resumo estatístico de dados numéricos
No exemplo seguinte, é analisado o DataFrame df, que contém uma série de dados de vendas:
import pandas as pd
import numpy as np
# Ejemplo de DataFrame con datos de ventas
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonEm seguida, podemos usar describe() do Pandas para obter um resumo estatístico das colunas numéricas:
summary = df.describe()
print(summary)pythonA chamada para a função DataFrame.describe() gera o seguinte resultado:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000Estes números têm o seguinte significado:
count: quantidade de entradas não NaNmean: média dos valores (também visível comDataFrame.mean())std: desvio padrão dos valoresmin, 25%, 50%, 75%, max: mínimo, percentil 25, mediana (percentil 50), percentil 75, máximo dos valores
Exemplo 2: Ajuste dos quantis
Pode ajustar a função DataFrame.describe() do Pandas com os parâmetros descritos anteriormente para incluir quartis específicos.
# Resumen estadístico con cuantiles ajustados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonA partir dos quantis que escolhemos, ou seja, 10 %, 50 % (mediana) e 90 %, a chamada da função fornece o seguinte resultado:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000