O que é a função Pandas DataFrame describe()?
A função DataFrame.describe()
do Python Pandas é usada para gerar um resumo estatístico das colunas numéricas de um DataFrame. Esse resumo inclui métricas importantes, como média, desvio padrão, valor mínimo, valor máximo e percentis diferentes.
Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!
- Domínio
- SSL Wildcard
- Suporte 24 horas
Qual é a sintaxe da função Pandas DataFrame describe()
?
A sintaxe básica da função Pandas describe()
usada em um DataFrame é simples. Ela segue este padrão:
Parâmetros importantes da função Pandas DataFrame.describe()
Usando os parâmetros abaixo, você consegue ajustar o resultado obtido com a função Pandas describe()
:
Parâmetro | Descrição | Valor padrão |
---|---|---|
percentiles
|
Lista os percentis que devem ser incluídos no resumo | [.25, .5, .75]
|
include
|
Especifica quais tipos de dados serão incluídos na descrição. Possíveis valores são numpy.number , numpy.object , all ou None
|
None
|
exclude
|
Especifica quais tipos de dados devem ser excluídos da descrição. Funciona com a mesma lógica do parâmetro include
|
None
|
Percentil estatístico é um valor que divide um conjunto de dados em partes iguais, exibindo qual porcentagem dos pontos de dados fica abaixo de um patamar específico. Ele abrange métricas como mediana (percentil 50), percentil 25 e percentil 75. Essas informações ajudam a ter uma visão mais clara da distribuição dos dados.
Exemplos de uso da função Pandas describe()
Em situações em que é necessário ter uma visão geral das métricas estatísticas de um conjunto de dados, a função Pandas DataFrame.describe()
é extremamente útil.
Exemplo 1: Resumo estatístico de dados numéricos
No exemplo abaixo, temos o DataFrame df
, que contém diferentes tipos de dados de vendas.
Você pode usar a função Pandas describe()
para obter um resumo estatístico dos dados numéricos nas colunas:
O resultado da função Pandas DataFrame.describe()
será este:
As métricas exibidas no resultado são:
count
: Número de entradas que não nulas (NaN; não numérico).mean
: Média dos valores (também pode ser descoberta usando a funçãoDataFrame.mean()
).std
: Desvio padrão dos valores.min
,25%
,50%
,75%
,max
: Valor mínimo, percentil 25, mediana (percentil 50), percentil 75 e valor máximo, respectivamente.
Exemplo 2: Personalização de percentis
Você pode personalizar os percentis exibidos no resultado da função Pandas DataFrame.describe()
usando o parâmetro percentiles
:
Ao chamar a função, teremos o seguinte resultado:
Incluímos 10%
,50%
e 90%
no resultado em vez dos percentis padrão exibidos no exemplo anterior.