A função DataFrame.describe() do Python Pandas é usada para gerar um resumo es­ta­tís­tico das colunas numéricas de um DataFrame. Esse resumo inclui métricas im­por­tan­tes, como média, desvio padrão, valor mínimo, valor máximo e percentis di­fe­ren­tes.

Hos­pe­da­gem que se adapta às suas ambições
  • Fique online com 99,99% de tempo de atividade e segurança robusta
  • Aumente o de­sem­pe­nho com um clique à medida que o tráfego cresce
  • Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana

Qual é a sintaxe da função Pandas DataFrame describe()?

A sintaxe básica da função Pandas describe()usada em um DataFrame é simples. Ela segue este padrão:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Pa­râ­me­tros im­por­tan­tes da função Pandas DataFrame.describe()

Usando os pa­râ­me­tros abaixo, você consegue ajustar o resultado obtido com a função Pandas describe():

Parâmetro Descrição Valor padrão
percentiles Lista os percentis que devem ser incluídos no resumo [.25, .5, .75]
include Es­pe­ci­fica quais tipos de dados serão incluídos na descrição. Possíveis valores são numpy.number, numpy.object, all ou None None
exclude Es­pe­ci­fica quais tipos de dados devem ser excluídos da descrição. Funciona com a mesma lógica do parâmetro include None

Exemplos de uso da função Pandas describe()

Em situações em que é ne­ces­sá­rio ter uma visão geral das métricas es­ta­tís­ti­cas de um conjunto de dados, a função Pandas DataFrame.describe() é ex­tre­ma­mente útil.

Exemplo 1: Resumo es­ta­tís­tico de dados numéricos

No exemplo abaixo, temos o DataFrame df, que contém di­fe­ren­tes tipos de dados de vendas.

import pandas as pd
import numpy as np
# Exemplo de DataFrame com dados de vendas
data = {
    'Produto': ['A', 'B', 'C', 'D', 'E'],
    'Quantidade': [10, 20, 15, 5, 30],
    'Preço': [100, 150, 200, 80, 120],
    'Receita': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Você pode usar a função Pandas describe() para obter um resumo es­ta­tís­tico dos dados numéricos nas colunas:

summary = df.describe()
print(summary)
python

O resultado da função Pandas DataFrame.describe() será este:

Quantidade      Preço      Receita
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

As métricas exibidas no resultado são:

  • count: Número de entradas que não nulas (NaN; não numérico).
  • mean: Média dos valores (também pode ser des­co­berta usando a função DataFrame.mean()).
  • std: Desvio padrão dos valores.
  • min, 25%, 50%, 75%, max: Valor mínimo, percentil 25, mediana (percentil 50), percentil 75 e valor máximo, res­pec­ti­va­mente.

Exemplo 2: Per­so­na­li­za­ção de percentis

Você pode per­so­na­li­zar os percentis exibidos no resultado da função Pandas DataFrame.describe() usando o parâmetro percentiles:

# Resumo estatístico com percentis personalizados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Ao chamar a função, teremos o seguinte resultado:

Quantidade       Preço      Receita
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Incluímos 10%,50% e 90% no resultado em vez dos percentis padrão exibidos no exemplo anterior.

Ir para o menu principal