Como usar a biblioteca Python Pandas para analisar e manipular dados

Tabela de Conteúdos

O Python Pandas é uma biblioteca de código aberto desenvolvida especialmente para análise e manipulação de dados. Ela oferece aos programadores estruturas e funções que simplificam o trabalho com tabelas numéricas e séries temporais.

Nomes de domínio por US$ 1

Registre ótimos TLDs por menos de US$ 1 no primeiro ano. Esperar para quê? Garanta seu nome de domínio preferido hoje mesmo.

inscrição fácil
Certificado SSL
Suporte 24 horas por dia, 365 dias por ano

Para que serve o Python Pandas?

A biblioteca Pandas é amplamente utilizada em diferentes áreas de processamento de dados graças às suas funcionalidades que oferecem suporte a diversas aplicações:

Análise exploratória de dados (AED): o Python Pandas facilita a exploração e a compreensão geral dos conjuntos de dados. Com funções como describe(), head() e info(), os desenvolvedores obtêm rapidamente insights sobre os dados e identificam correlações estatísticas.
Limpeza e pré-processamento de dados: é necessário limpar e organizar em um formato consistente os dados obtidos de diversas fontes antes de analisá-los. O Pandas oferece várias funções para filtrar e transformar esses dados.
Manipulação e transformação de dados: as principais tarefas do Pandas são manipulação, análise e transformação de conjuntos de dados. Funções como merge() ou groupby() possibilitam realizar operações complexas envolvendo os dados.
Visualização de dados: outro campo prático de aplicação é a combinação com outras bibliotecas, como Matplotlib ou Seaborn. Assim, o DataFrame do Pandas pode ser convertido diretamente em diagramas ou plotagens.

Vantagens do Python Pandas

O Python Pandas oferece diversas vantagens que o tornam uma ferramenta indispensável para analistas de dados e pesquisadores. Sua API intuitiva e de fácil compreensão assegura um alto nível de usabilidade. Como as estruturas de dados centrais do Python Pandas (DataFrame e Series) são parecidas com planilhas, não é muito difícil aprender a trabalhar com elas.

Outra vantagem fundamental do Python Pandas é o seu desempenho. Embora o Python seja conhecido como uma linguagem de programação lenta, o Pandas é capaz de processar grandes conjuntos de dados de forma eficiente. Isso acontece porque a biblioteca foi escrita na linguagem C e utiliza algoritmos otimizados.

O Pandas oferece suporte a vários formatos de dados, incluindo CSV, Excel e bancos de dados SQL, possibilitando importações e exportações facilitadas de diversas fontes, aumentando ainda mais sua flexibilidade. Sua integração com outras bibliotecas do ecossistema Python, como NumPy e Matplotlib, amplia sua versatilidade e possibilita a realização de análises e modelagens de dados abrangentes.

Nota

Se você tem experiência com outras linguagens de programação, como R, ou com bancos de dados, como SQL, identificará muitos conceitos similares no Pandas.

Exemplos práticos da sintaxe do Python Pandas

Para ilustrarmos a sintaxe básica do Pandas, vamos analisar um exemplo simples. Imagine um conjunto de dados CSV com informações sobre vendas. Carregaremos esse conjunto, o examinaremos e realizaremos uma manipulação básica dos dados. O conjunto é estruturado da seguinte forma:

Data,Produto,Quantidade,Preço
2024-01-01,Produto A,10,20.00
2024-01-02,Produto B,5,30.00
2024-01-03,Produto C,7,25.00
2024-01-04,Produto A,3,20.00
2024-01-05,Produto B,6,30.00
2024-01-06,Produto C,2,25.00
2024-01-07,Produto A,8,20.00
2024-01-08,Produto B,4,30.00
2024-01-09,Produto C,10,25.00

Passo 1: Importar o Pandas para o Python e carregar o conjunto de dados

Após importar o Python Pandas, você poderá criar um DataFrame a partir dos dados em formato CSV com o uso da função read_csv().

import pandas as pd
# Carregar o registro de dados a partir do arquivo CSV chamado dados_vendas.csv
df = pd.read_csv('dados_vendas.csv')

python

Passo 2: Examinar conjunto de dados com o Python Pandas

Uma visão geral dos dados é obtida ao exibir as primeiras linhas e um resumo estatístico do conjunto. As funções head() e describe() são usadas para essa finalidade. Em especial, describe() apresenta uma visão geral de índices estatísticos importantes, como o valor mínimo e o máximo, o desvio padrão e o valor médio.

# Exibir as primeiras cinco linhas do DataFrame
print(df.head())
# Exibir um resumo estatístico
print(df.describe())

python

Passo 3: Manipular dados com o Python Pandas

Também é possível manipular dados com o Python Pandas. No código a seguir, os dados de vendas foram agregados por produto e mês:

# Converter a coluna “Data” em um objeto de data e hora para que as datas sejam identificadas corretamente
df['Data'] = pd.to_datetime(df['Data'])
# Extrair o mês da coluna “Data” e salvá-lo em uma nova coluna chamada “Mês”
df['Mês'] = df['Data'].dt.month
# Calcular a receita (Quantidade x Preço) e salvá-la na coluna chamada “Receita”
df['Receita'] = df['Quantidade'] * df['Preço']
# Agregar os dados de vendas por produto e mês
sales_summary = df.groupby(['Produto', 'Mês'])['Receita'].sum().reset_index()
# Exibir os dados agregados
print(sales_summary)

python

Passo 4: Visualizar dados

Por fim, você pode visualizar os números de vendas mensais de um produto usando a biblioteca Python Matplotlib.

import matplotlib.pyplot as plt
# Filtrar os dados para encontrar um produto específico
product_sales = sales_summary[sales_summary['Produto'] == 'Produto A']
# Criar um gráfico de linhas 
plt.plot(product_sales['Mês'], product_sales['Receita'], marker='o')
plt.xlabel('Mês')
plt.gca().set_xticks(product_sales['Mês'])
plt.ylabel('Receita')
plt.title('Receita mensal produto A')
plt.grid(True)
plt.show()

python

O gráfico abaixo indica que, no primeiro mês do ano, o produto A gerou R$ 940 de receita:

Dados do Python Pandas podem ser plotados com facilidade quando combinados com outras bibliotecas

Como usar a bi­bli­o­teca Python Pandas para analisar e manipular dados

Para que serve o Python Pandas?

Vantagens do Python Pandas

Exemplos práticos da sintaxe do Python Pandas

Passo 1: Importar o Pandas para o Python e carregar o conjunto de dados

Passo 2: Examinar conjunto de dados com o Python Pandas

Passo 3: Manipular dados com o Python Pandas

Passo 4: Vi­su­a­li­zar dados

Como usar a biblioteca Python Pandas para analisar e manipular dados

Passo 4: Visualizar dados