A função read_csv() do Python Pandas é um dos métodos mais usados para ler arquivos CSV no Pandas e armazená-los em Da­ta­Fra­mes. Os arquivos CSV (sigla de comma-separated values ou valores separados por vírgula) têm um formato am­pla­mente adotado no ar­ma­ze­na­mento de dados tabulares, além de serem su­por­ta­dos por muitas apli­ca­ções.

Hos­pe­da­gem que se adapta às suas ambições
  • Fique online com 99,99% de tempo de atividade e segurança robusta
  • Aumente o de­sem­pe­nho com um clique à medida que o tráfego cresce
  • Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana

Qual é a sintaxe da função Python Pandas read_csv()?

A função pandas.read_csv() produz um DataFrame no Pandas a partir de um arquivo CSV. Sua sintaxe básica é a seguinte:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)
python

Quais são os pa­râ­me­tros mais im­por­tan­tes da função pandas.read_csv()?

A função pandas.read_csv() aceita a inclusão de diversos pa­râ­me­tros. Para sim­pli­fi­car­mos sua com­pre­en­são, vamos abordar apenas os mais im­por­tan­tes. Aqui está uma visão geral dos pa­râ­me­tros que você pode usar para es­pe­ci­fi­car como a função deve se comportar:

Parâmetro Sig­ni­fi­cado Valor padrão
filepath_or_buffer Esta é uma Python string que re­pre­senta o caminho até o arquivo CSV ou buffer de dados, como um URL.
sep Es­pe­ci­fica o de­li­mi­ta­dor usado entre os valores. ,
header Indica qual linha será usada como título. infer (primeira linha)
names Se a definição for header=None, use names para dis­po­ni­bi­li­zar uma lista em Python dos nomes das colunas.
index_col Determina qual coluna usar como índice. None
usecols Permite se­le­ci­o­nar quais colunas você deseja carregar no DataFrame. None
dtype Es­pe­ci­fica o tipo de dados das colunas. None

A lista completa dos pa­râ­me­tros para essa função está dis­po­ní­vel na do­cu­men­ta­ção oficial do Pandas.

Ins­tru­ções passo a passo: Acessar arquivos CSV

Ao usar a função pandas.read_csv(), é possível trans­fe­rir dados de arquivos CSV para o Python em apenas alguns passos.

Nos exemplos a seguir, vamos trabalhar com um arquivo CSV es­tru­tu­rado desta forma:

1,João Silva,35,São Paulo,70000
2,Ana Santos,29,Belo Horizonte,62000
3,Marcelo Ribeiro,41,Goiânia,58000
4,Glória Sampaio,33,Recife,49000
5,Thomas Andrade,28,Porto Alegre,52000

Passo 1: Importar o Pandas

Primeiro, vamos importar a bi­bli­o­teca Pandas no script do Python.

import pandas as pd
python

Passo 2: Carregar o arquivo CSV

Em seguida, vamos carregar o arquivo CSV no Python Pandas usando a função read_csv(). Para fazer isso, basta informar o caminho do arquivo (filepath) à função. No código a seguir, usaremos um arquivo chamado dados.csv, que foi salvo no mesmo diretório do script:

df = pd.read_csv('dados.csv')
python

O código acima ar­ma­ze­nará o arquivo em um objeto de DataFrame (df), o que pos­si­bi­li­tará trabalhar com suas in­for­ma­ções. O Pandas in­ter­pre­tará au­to­ma­ti­ca­mente a primeira linha como os títulos das colunas, a menos que você es­pe­ci­fi­que o contrário.

Passo 3: Exibir o arquivo CSV

É re­co­men­dá­vel observar as primeiras linhas do DataFrame para ter certeza de que o arquivo foi carregado cor­re­ta­mente. Para fazer isso, use a função DataFrame.head(). Por padrão, ela exibe as cinco primeiras linhas do DataFrame, ofe­re­cendo uma visão geral rápida da estrutura de seus dados:

print(df.head())
python

O resultado será este:

0  1      João Silva   35      São Paulo   70000
1  2    Ana Santos   29   Belo Horizonte   62000
2  3   Marcelo Ribeiro   41       Goiânia   58000
3  4    Glória Sampaio  33       Recife   49000
4  5    Thomas Andrade   28        Porto Alegre   52000

Passo 4: Alterar os nomes das colunas (opcional)

Se o seu arquivo CSV não tiver uma linha de cabeçalho, você pode definir ma­nu­al­mente os nomes das colunas:

df = pd.read_csv('dados.csv', header=None, names=['ID', 'Nome', 'Idade', 'Cidade', 'Salário'])
python

Neste exemplo, nomeamos as colunas como ID, Nome, Idade, Cidade e Salário. O resultado ficará assim:

ID          Nome     Idade             Cidade         Salário
0    1        João Silva        35          São Paulo            70000
1    2        Ana Santos        29    Belo Horizonte            62000
2  3         Marcelo Ribeiro        41        Goiânia                     58000
3  4         Glória Sampaio        33        Recife                          49000
4  5         Thomas Andrade    28     Porto Alegre            52000
Ir para o menu principal