Guia rápido sobre o método Pandas describe()

Tabela de Conteúdos

A função DataFrame.describe() da Biblioteca Python Pandas serve para gerar um resumo estatístico das colunas numéricas de um DataFrame. Esse resumo inclui indicadores estatísticos importantes, como média, desvio padrão, mínimo, máximo e vários quantis dos dados.

Sintaxe de `describe()` em Pandas

A sintaxe básica da função describe() no Pandas não é complicada e é a seguinte:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Parâmetros relevantes

Com a ajuda de alguns parâmetros, poderá realizar ajustes na saída da função describe(). Esses parâmetros são:

Parâmetro	Descrição	Valor padrão
`percentiles`	Enumera os quantis desejados que devem ser incluídos na descrição	`[.25, .5, .75]`
`include`	Determine quais tipos de dados devem ser incluídos na descrição. Os valores podem ser `numpy.number`, `numpy.object`, `all` ou `None`	`None`
`exclude`	Determina quais tipos de dados devem ser excluídos da descrição. Os valores são análogos aos de `include`	`None`

Utilização de `describe()` em Pandas

O método DataFrame.describe() do Pandas é usado principalmente para obter rapidamente os principais indicadores estatísticos de um conjunto de dados.

Exemplo 1: Resumo estatístico de dados numéricos

No exemplo seguinte, é analisado o DataFrame df, que contém uma série de dados de vendas:

import pandas as pd
import numpy as np
# Ejemplo de DataFrame con datos de ventas
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Em seguida, podemos usar describe() do Pandas para obter um resumo estatístico das colunas numéricas:

summary = df.describe()
print(summary)

python

A chamada para a função DataFrame.describe() gera o seguinte resultado:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

Estes números têm o seguinte significado:

count: quantidade de entradas não NaN
mean: média dos valores (também visível com DataFrame.mean())
std: desvio padrão dos valores
min, 25%, 50%, 75%, max: mínimo, percentil 25, mediana (percentil 50), percentil 75, máximo dos valores

Exemplo 2: Ajuste dos quantis

Pode ajustar a função DataFrame.describe() do Pandas com os parâmetros descritos anteriormente para incluir quartis específicos.

# Resumen estadístico con cuantiles ajustados
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

A partir dos quantis que escolhemos, ou seja, 10 %, 50 % (mediana) e 90 %, a chamada da função fornece o seguinte resultado:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

Como ler ficheiros CVS em Python com Pandas read_csv()

Python Pandas read_csv() é uma excelente função para aceder de forma rápida e eficiente ao conteúdo de ficheiros CSV em Python. A função é flexível e oferece vários parâmetros para adaptar o processo de carregamento às suas necessidades. Compreender como funciona o Pandas…

Leia mais

Mr. Kosalshutterstock

Como utilizar o Pandas DataFrame Index

A indexação dos DataFrames do Pandas é uma ferramenta fantástica para trabalhar com dados de forma mais eficiente. Existem diferentes métodos com os quais pode aceder a dados e subconjuntos específicos do seu DataFrame para manipulá-los. Explicamos o que é o índice de um…

Leia mais

BEST-BACKGROUNDSShutterstock

Guia rápido sobre o método Pandas dropna()

O método DataFrame.dropna() do Pandas é uma excelente ferramenta para limpar conjuntos de dados, eliminando valores ausentes de forma eficiente. É uma ferramenta muito flexível que pode ser utilizada com vários parâmetros, permitindo aos programadores adaptar a limpeza de dados…

Leia mais

ESB Professionalshutterstock

Pandas DataFrame: como manipular tabelas em Python de maneira simples

O módulo Pandas é uma das melhores ferramentas para manipular dados em Python. Os DataFrames são uma das estruturas de dados centrais no Pandas e servem para manipular dados bidimensionais estruturados de forma clara e eficiente. Explicamos a sua estrutura e propriedades a partir…

Leia mais

BEST-BACKGROUNDSShutterstock

Iterar sobre DataFrames com Pandas itterows()

Pandas DataFrame itterows() é uma forma de iterar sobre as linhas de um DataFrame do Pandas. Esta função é usada especialmente quando é necessário um processamento linha por linha, por exemplo, ao realizar cálculos. Neste artigo, ensinamos como trabalhar com a função itterows()…

Leia mais

UndreyShutterstock

A função Pandas iloc() do Python

Ao trabalhar com DataFrames na biblioteca Pandas do Python, talvez não queira incluir todas as linhas ou colunas de um DataFrame para realizar uma análise dos dados. Com a propriedade iloc[] do Pandas, poderá selecionar as linhas ou colunas que deseja incluir através dos seus…

Leia mais

Guia rápido sobre o método Pandas describe()

Sintaxe de describe() em Pandas

Pa­râ­me­tros re­le­van­tes

Uti­li­za­ção de describe() em Pandas

Exemplo 1: Resumo es­ta­tís­tico de dados numéricos

Exemplo 2: Ajuste dos quantis

Sintaxe de `describe()` em Pandas

Parâmetros relevantes

Utilização de `describe()` em Pandas

Exemplo 1: Resumo estatístico de dados numéricos