A função DataFrame.describe() do Python Pandas é usada para gerar um resumo estatístico das colunas numéricas de um DataFrame. Esse resumo inclui métricas importantes, como média, desvio padrão, valor mínimo, valor máximo e percentis diferentes.

Hospedagem web com consultor pessoal

Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!

  • Domínio
  • SSL Wildcard
  • Suporte 24 horas

Qual é a sintaxe da função Pandas DataFrame describe()?

A sintaxe básica da função Pandas describe()usada em um DataFrame é simples. Ela segue este padrão:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Parâmetros importantes da função Pandas DataFrame.describe()

Usando os parâmetros abaixo, você consegue ajustar o resultado obtido com a função Pandas describe():

Parâmetro Descrição Valor padrão
percentiles Lista os percentis que devem ser incluídos no resumo [.25, .5, .75]
include Especifica quais tipos de dados serão incluídos na descrição. Possíveis valores são numpy.number, numpy.object, all ou None None
exclude Especifica quais tipos de dados devem ser excluídos da descrição. Funciona com a mesma lógica do parâmetro include None
Definição

Percentil estatístico é um valor que divide um conjunto de dados em partes iguais, exibindo qual porcentagem dos pontos de dados fica abaixo de um patamar específico. Ele abrange métricas como mediana (percentil 50), percentil 25 e percentil 75. Essas informações ajudam a ter uma visão mais clara da distribuição dos dados.

Exemplos de uso da função Pandas describe()

Em situações em que é necessário ter uma visão geral das métricas estatísticas de um conjunto de dados, a função Pandas DataFrame.describe() é extremamente útil.

Exemplo 1: Resumo estatístico de dados numéricos

No exemplo abaixo, temos o DataFrame df, que contém diferentes tipos de dados de vendas.

import pandas as pd
import numpy as np
# Exemplo de DataFrame com dados de vendas
data = {
    'Produto': ['A', 'B', 'C', 'D', 'E'],
    'Quantidade': [10, 20, 15, 5, 30],
    'Preço': [100, 150, 200, 80, 120],
    'Receita': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Você pode usar a função Pandas describe() para obter um resumo estatístico dos dados numéricos nas colunas:

summary = df.describe()
print(summary)
python

O resultado da função Pandas DataFrame.describe() será este:

Quantidade      Preço      Receita
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

As métricas exibidas no resultado são:

  • count: Número de entradas que não nulas (NaN; não numérico).
  • mean: Média dos valores (também pode ser descoberta usando a função DataFrame.mean()).
  • std: Desvio padrão dos valores.
  • min, 25%, 50%, 75%, max: Valor mínimo, percentil 25, mediana (percentil 50), percentil 75 e valor máximo, respectivamente.

Exemplo 2: Personalização de percentis

Você pode personalizar os percentis exibidos no resultado da função Pandas DataFrame.describe() usando o parâmetro percentiles:

# Resumo estatístico com percentis personalizados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Ao chamar a função, teremos o seguinte resultado:

Quantidade       Preço      Receita
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Incluímos 10%,50% e 90% no resultado em vez dos percentis padrão exibidos no exemplo anterior.

Este artigo foi útil?
Ir para o menu principal