Como carregar arquivos no Python com a função Pandas read_csv()
A função read_csv() do Python Pandas é um dos métodos mais usados para ler arquivos CSV no Pandas e armazená-los em DataFrames. Os arquivos CSV (sigla de comma-separated values ou valores separados por vírgula) têm um formato amplamente adotado no armazenamento de dados tabulares, além de serem suportados por muitas aplicações.
- Fique online com 99,99% de tempo de atividade e segurança robusta
- Aumente o desempenho com um clique à medida que o tráfego cresce
- Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana
Qual é a sintaxe da função Python Pandas read_csv()?
A função pandas.read_csv() produz um DataFrame no Pandas a partir de um arquivo CSV. Sua sintaxe básica é a seguinte:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonQuais são os parâmetros mais importantes da função pandas.read_csv()?
A função pandas.read_csv() aceita a inclusão de diversos parâmetros. Para simplificarmos sua compreensão, vamos abordar apenas os mais importantes. Aqui está uma visão geral dos parâmetros que você pode usar para especificar como a função deve se comportar:
| Parâmetro | Significado | Valor padrão |
|---|---|---|
filepath_or_buffer
|
Esta é uma Python string que representa o caminho até o arquivo CSV ou buffer de dados, como um URL. | |
sep
|
Especifica o delimitador usado entre os valores. | ,
|
header
|
Indica qual linha será usada como título. | infer (primeira linha)
|
names
|
Se a definição for header=None, use names para disponibilizar uma lista em Python dos nomes das colunas.
|
|
index_col
|
Determina qual coluna usar como índice. | None
|
usecols
|
Permite selecionar quais colunas você deseja carregar no DataFrame. | None
|
dtype
|
Especifica o tipo de dados das colunas. | None
|
A lista completa dos parâmetros para essa função está disponível na documentação oficial do Pandas.
Instruções passo a passo: Acessar arquivos CSV
Ao usar a função pandas.read_csv(), é possível transferir dados de arquivos CSV para o Python em apenas alguns passos.
Nos exemplos a seguir, vamos trabalhar com um arquivo CSV estruturado desta forma:
1,João Silva,35,São Paulo,70000
2,Ana Santos,29,Belo Horizonte,62000
3,Marcelo Ribeiro,41,Goiânia,58000
4,Glória Sampaio,33,Recife,49000
5,Thomas Andrade,28,Porto Alegre,52000Passo 1: Importar o Pandas
Primeiro, vamos importar a biblioteca Pandas no script do Python.
import pandas as pdpythonPasso 2: Carregar o arquivo CSV
Em seguida, vamos carregar o arquivo CSV no Python Pandas usando a função read_csv(). Para fazer isso, basta informar o caminho do arquivo (filepath) à função. No código a seguir, usaremos um arquivo chamado dados.csv, que foi salvo no mesmo diretório do script:
df = pd.read_csv('dados.csv')pythonO código acima armazenará o arquivo em um objeto de DataFrame (df), o que possibilitará trabalhar com suas informações. O Pandas interpretará automaticamente a primeira linha como os títulos das colunas, a menos que você especifique o contrário.
Passo 3: Exibir o arquivo CSV
É recomendável observar as primeiras linhas do DataFrame para ter certeza de que o arquivo foi carregado corretamente. Para fazer isso, use a função DataFrame.head(). Por padrão, ela exibe as cinco primeiras linhas do DataFrame, oferecendo uma visão geral rápida da estrutura de seus dados:
print(df.head())pythonO resultado será este:
0 1 João Silva 35 São Paulo 70000
1 2 Ana Santos 29 Belo Horizonte 62000
2 3 Marcelo Ribeiro 41 Goiânia 58000
3 4 Glória Sampaio 33 Recife 49000
4 5 Thomas Andrade 28 Porto Alegre 52000Passo 4: Alterar os nomes das colunas (opcional)
Se o seu arquivo CSV não tiver uma linha de cabeçalho, você pode definir manualmente os nomes das colunas:
df = pd.read_csv('dados.csv', header=None, names=['ID', 'Nome', 'Idade', 'Cidade', 'Salário'])pythonNeste exemplo, nomeamos as colunas como ID, Nome, Idade, Cidade e Salário. O resultado ficará assim:
ID Nome Idade Cidade Salário
0 1 João Silva 35 São Paulo 70000
1 2 Ana Santos 29 Belo Horizonte 62000
2 3 Marcelo Ribeiro 41 Goiânia 58000
3 4 Glória Sampaio 33 Recife 49000
4 5 Thomas Andrade 28 Porto Alegre 52000
