A função read_csv() do Python Pandas é um dos métodos mais usados para ler arquivos CSV no Pandas e armazená-los em DataFrames. Os arquivos CSV (sigla de comma-separated values ou valores separados por vírgula) têm um formato amplamente adotado no armazenamento de dados tabulares, além de serem suportados por muitas aplicações.

Hospedagem web com consultor pessoal

Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!

  • Domínio
  • SSL Wildcard
  • Suporte 24 horas

Qual é a sintaxe da função Python Pandas read_csv()?

A função pandas.read_csv() produz um DataFrame no Pandas a partir de um arquivo CSV. Sua sintaxe básica é a seguinte:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)
python

Quais são os parâmetros mais importantes da função pandas.read_csv()?

A função pandas.read_csv() aceita a inclusão de diversos parâmetros. Para simplificarmos sua compreensão, vamos abordar apenas os mais importantes. Aqui está uma visão geral dos parâmetros que você pode usar para especificar como a função deve se comportar:

Parâmetro Significado Valor padrão
filepath_or_buffer Esta é uma Python string que representa o caminho até o arquivo CSV ou buffer de dados, como um URL.
sep Especifica o delimitador usado entre os valores. ,
header Indica qual linha será usada como título. infer (primeira linha)
names Se a definição for header=None, use names para disponibilizar uma lista em Python dos nomes das colunas.
index_col Determina qual coluna usar como índice. None
usecols Permite selecionar quais colunas você deseja carregar no DataFrame. None
dtype Especifica o tipo de dados das colunas. None

A lista completa dos parâmetros para essa função está disponível na documentação oficial do Pandas.

Instruções passo a passo: Acessar arquivos CSV

Ao usar a função pandas.read_csv(), é possível transferir dados de arquivos CSV para o Python em apenas alguns passos.

Nos exemplos a seguir, vamos trabalhar com um arquivo CSV estruturado desta forma:

1,João Silva,35,São Paulo,70000
2,Ana Santos,29,Belo Horizonte,62000
3,Marcelo Ribeiro,41,Goiânia,58000
4,Glória Sampaio,33,Recife,49000
5,Thomas Andrade,28,Porto Alegre,52000

Passo 1: Importar o Pandas

Primeiro, vamos importar a biblioteca Pandas no script do Python.

import pandas as pd
python

Passo 2: Carregar o arquivo CSV

Em seguida, vamos carregar o arquivo CSV no Python Pandas usando a função read_csv(). Para fazer isso, basta informar o caminho do arquivo (filepath) à função. No código a seguir, usaremos um arquivo chamado dados.csv, que foi salvo no mesmo diretório do script:

df = pd.read_csv('dados.csv')
python

O código acima armazenará o arquivo em um objeto de DataFrame (df), o que possibilitará trabalhar com suas informações. O Pandas interpretará automaticamente a primeira linha como os títulos das colunas, a menos que você especifique o contrário.

Passo 3: Exibir o arquivo CSV

É recomendável observar as primeiras linhas do DataFrame para ter certeza de que o arquivo foi carregado corretamente. Para fazer isso, use a função DataFrame.head(). Por padrão, ela exibe as cinco primeiras linhas do DataFrame, oferecendo uma visão geral rápida da estrutura de seus dados:

print(df.head())
python

O resultado será este:

0  1      João Silva   35      São Paulo   70000
1  2    Ana Santos   29   Belo Horizonte   62000
2  3   Marcelo Ribeiro   41       Goiânia   58000
3  4    Glória Sampaio  33       Recife   49000
4  5    Thomas Andrade   28        Porto Alegre   52000

Passo 4: Alterar os nomes das colunas (opcional)

Se o seu arquivo CSV não tiver uma linha de cabeçalho, você pode definir manualmente os nomes das colunas:

df = pd.read_csv('dados.csv', header=None, names=['ID', 'Nome', 'Idade', 'Cidade', 'Salário'])
python

Neste exemplo, nomeamos as colunas como ID, Nome, Idade, Cidade e Salário. O resultado ficará assim:

ID          Nome     Idade             Cidade         Salário
0    1        João Silva        35          São Paulo            70000
1    2        Ana Santos        29    Belo Horizonte            62000
2  3         Marcelo Ribeiro        41        Goiânia                     58000
3  4         Glória Sampaio        33        Recife                          49000
4  5         Thomas Andrade    28     Porto Alegre            52000
Nota

Nosso exemplo contém uma baixa quantidade de dados, portanto, ele é simples de gerenciar. No entanto, se você possui um arquivo CSV muito grande, talvez seja uma boa ideia carregá-lo em partes no Pandas para evitar problemas de memória. Para fazer isso, use o parâmetro chunksize da função pandas.read_csv() para especificar quantas linhas serão lidas por vez. Ao executar um for loop Python, você conseguirá iterar sobre essas partes.

Este artigo foi útil?
Ir para o menu principal