O que é a função Pandas DataFrame describe()?
A função DataFrame.describe() do Python Pandas é usada para gerar um resumo estatístico das colunas numéricas de um DataFrame. Esse resumo inclui métricas importantes, como média, desvio padrão, valor mínimo, valor máximo e percentis diferentes.
- Fique online com 99,99% de tempo de atividade e segurança robusta
- Aumente o desempenho com um clique à medida que o tráfego cresce
- Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana
Qual é a sintaxe da função Pandas DataFrame describe()?
A sintaxe básica da função Pandas describe()usada em um DataFrame é simples. Ela segue este padrão:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonParâmetros importantes da função Pandas DataFrame.describe()
Usando os parâmetros abaixo, você consegue ajustar o resultado obtido com a função Pandas describe():
| Parâmetro | Descrição | Valor padrão |
|---|---|---|
percentiles
|
Lista os percentis que devem ser incluídos no resumo | [.25, .5, .75]
|
include
|
Especifica quais tipos de dados serão incluídos na descrição. Possíveis valores são numpy.number, numpy.object, all ou None
|
None
|
exclude
|
Especifica quais tipos de dados devem ser excluídos da descrição. Funciona com a mesma lógica do parâmetro include
|
None
|
Exemplos de uso da função Pandas describe()
Em situações em que é necessário ter uma visão geral das métricas estatísticas de um conjunto de dados, a função Pandas DataFrame.describe() é extremamente útil.
Exemplo 1: Resumo estatístico de dados numéricos
No exemplo abaixo, temos o DataFrame df, que contém diferentes tipos de dados de vendas.
import pandas as pd
import numpy as np
# Exemplo de DataFrame com dados de vendas
data = {
'Produto': ['A', 'B', 'C', 'D', 'E'],
'Quantidade': [10, 20, 15, 5, 30],
'Preço': [100, 150, 200, 80, 120],
'Receita': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonVocê pode usar a função Pandas describe() para obter um resumo estatístico dos dados numéricos nas colunas:
summary = df.describe()
print(summary)pythonO resultado da função Pandas DataFrame.describe() será este:
Quantidade Preço Receita
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000As métricas exibidas no resultado são:
count: Número de entradas que não nulas (NaN; não numérico).mean: Média dos valores (também pode ser descoberta usando a funçãoDataFrame.mean()).std: Desvio padrão dos valores.min,25%,50%,75%,max: Valor mínimo, percentil 25, mediana (percentil 50), percentil 75 e valor máximo, respectivamente.
Exemplo 2: Personalização de percentis
Você pode personalizar os percentis exibidos no resultado da função Pandas DataFrame.describe() usando o parâmetro percentiles:
# Resumo estatístico com percentis personalizados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonAo chamar a função, teremos o seguinte resultado:
Quantidade Preço Receita
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000Incluímos 10%,50% e 90% no resultado em vez dos percentis padrão exibidos no exemplo anterior.

