Como carregar arquivos no Python com a função Pandas read_csv()

Tabela de Conteúdos

A função read_csv() do Python Pandas é um dos métodos mais usados para ler arquivos CSV no Pandas e armazená-los em DataFrames. Os arquivos CSV (sigla de comma-separated values ou valores separados por vírgula) têm um formato amplamente adotado no armazenamento de dados tabulares, além de serem suportados por muitas aplicações.

Hospedagem que se adapta às suas ambições

Fique online com 99,99% de tempo de atividade e segurança robusta
Aumente o desempenho com um clique à medida que o tráfego cresce
Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana

Qual é a sintaxe da função Python Pandas `read_csv()`?

A função pandas.read_csv() produz um DataFrame no Pandas a partir de um arquivo CSV. Sua sintaxe básica é a seguinte:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Quais são os parâmetros mais importantes da função `pandas.read_csv()`?

A função pandas.read_csv() aceita a inclusão de diversos parâmetros. Para simplificarmos sua compreensão, vamos abordar apenas os mais importantes. Aqui está uma visão geral dos parâmetros que você pode usar para especificar como a função deve se comportar:

ParÃ¢metro	Significado	Valor padrÃ£o
`filepath_or_buffer`	Esta Ã© uma Python string que representa o caminho atÃ© o arquivo CSV ou buffer de dados, como um URL.
`sep`	Especifica o delimitador usado entre os valores.	`,`
`header`	Indica qual linha serÃ¡ usada como tÃtulo.	`infer` (primeira linha)
`names`	Se a definiÃ§Ã£o for `header=None`, use `names` para disponibilizar uma lista em Python dos nomes das colunas.
`index_col`	Determina qual coluna usar como Ãndice.	`None`
`usecols`	Permite selecionar quais colunas vocÃª deseja carregar no DataFrame.	`None`
`dtype`	Especifica o tipo de dados das colunas.	`None`

A lista completa dos parâmetros para essa função está disponível na documentação oficial do Pandas.

Instruções passo a passo: Acessar arquivos CSV

Ao usar a função pandas.read_csv(), é possível transferir dados de arquivos CSV para o Python em apenas alguns passos.

Nos exemplos a seguir, vamos trabalhar com um arquivo CSV estruturado desta forma:

1,João Silva,35,São Paulo,70000
2,Ana Santos,29,Belo Horizonte,62000
3,Marcelo Ribeiro,41,Goiânia,58000
4,Glória Sampaio,33,Recife,49000
5,Thomas Andrade,28,Porto Alegre,52000

Passo 1: Importar o Pandas

Primeiro, vamos importar a biblioteca Pandas no script do Python.

import pandas as pd

python

Passo 2: Carregar o arquivo CSV

Em seguida, vamos carregar o arquivo CSV no Python Pandas usando a função read_csv(). Para fazer isso, basta informar o caminho do arquivo (filepath) à função. No código a seguir, usaremos um arquivo chamado dados.csv, que foi salvo no mesmo diretório do script:

df = pd.read_csv('dados.csv')

python

O código acima armazenará o arquivo em um objeto de DataFrame (df), o que possibilitará trabalhar com suas informações. O Pandas interpretará automaticamente a primeira linha como os títulos das colunas, a menos que você especifique o contrário.

Passo 3: Exibir o arquivo CSV

É recomendável observar as primeiras linhas do DataFrame para ter certeza de que o arquivo foi carregado corretamente. Para fazer isso, use a função DataFrame.head(). Por padrão, ela exibe as cinco primeiras linhas do DataFrame, oferecendo uma visão geral rápida da estrutura de seus dados:

print(df.head())

python

O resultado será este:

0  1      João Silva   35      São Paulo   70000
1  2    Ana Santos   29   Belo Horizonte   62000
2  3   Marcelo Ribeiro   41       Goiânia   58000
3  4    Glória Sampaio  33       Recife   49000
4  5    Thomas Andrade   28        Porto Alegre   52000

Passo 4: Alterar os nomes das colunas (opcional)

Se o seu arquivo CSV não tiver uma linha de cabeçalho, você pode definir manualmente os nomes das colunas:

df = pd.read_csv('dados.csv', header=None, names=['ID', 'Nome', 'Idade', 'Cidade', 'Salário'])

python

Neste exemplo, nomeamos as colunas como ID, Nome, Idade, Cidade e Salário. O resultado ficará assim:

ID          Nome     Idade             Cidade         Salário
0    1        João Silva        35          São Paulo            70000
1    2        Ana Santos        29    Belo Horizonte            62000
2  3         Marcelo Ribeiro        41        Goiânia                     58000
3  4         Glória Sampaio        33        Recife                          49000
4  5         Thomas Andrade    28     Porto Alegre            52000

Como percorrer DataFrames com Pandas iterrows()

A função Pandas DataFrame.iterrows() é uma ferramenta útil para percorrer linhas de um DataFrame, principalmente nos casos em que processamentos de dados se fazem necessários. O Pandas iterrows() é especialmente útil para a realização de cálculos ou lógicas condicionais. Conheça…

Python Pandas

Leia mais

Mr. Kosalshutterstock

Como usar o Pandas DataFrame index no Python

O Pandas DataFrame index é uma poderosa ferramenta de manipulação de dados. Ao aplicar diferentes métodos, você poderá trabalhar com dados e subconjuntos específicos no seu DataFrame. Neste artigo, explicamos o que é o Pandas DataFrame index, como acessar dados em colunas e…

Python Pandas

Leia mais

BEST-BACKGROUNDSShutterstock

Como limpar dados com a função Pandas dropna()

A função Pandas DataFrame.dropna() é uma poderosa ferramenta para limpar conjuntos de dados. Ela remove os valores definidos como ausentes e pode ser combinada com diversos parâmetros, possibilitando que programadores especifiquem requisitos diferentes para limpar os dados. Neste…

Python Pandas

Leia mais

Mr. Kosalshutterstock

O que é a função Pandas any() em Python e como ela funciona?

A função Pandas any() é uma ferramenta eficiente para verificar, com rapidez, se pelo menos um valor no DataFrame é verdadeiro. Ela é especialmente útil em processos de análise e validação de dados. Neste artigo, apresentamos a sintaxe dessa função, ensinamos você a usá-la e…

Python Pandas

Leia mais

ESB Professionalshutterstock

Pandas DataFrame: Manipular tabelas em Python

O módulo Pandas é uma das ferramentas mais poderosas para manipulação de dados em Python e uma de suas estruturas de dados centrais é o DataFrame. Com o Pandas DataFrame, é possível manipular dados estruturados bidimensionais de maneira eficiente e organizada. Vamos explicar, com…

Python Pandas

Leia mais

UndreyShutterstock

O que é a propriedade Pandas iloc[] em Python?

Ao trabalhar com DataFrames no Python Pandas, você perceberá que nem todas as linhas ou colunas são relevantes para uma análise de dados. A propriedade Pandas iloc[] é uma ferramenta útil para selecionar linhas ou colunas do DataFrame por meio de índices. Neste artigo,…

Python Pandas

Leia mais

Como carregar arquivos no Python com a função Pandas read_csv()

Qual é a sintaxe da função Python Pandas read_csv()?

Quais são os pa­râ­me­tros mais im­por­tan­tes da função pandas.read_csv()?

Ins­tru­ções passo a passo: Acessar arquivos CSV

Passo 1: Importar o Pandas

Passo 2: Carregar o arquivo CSV

Passo 3: Exibir o arquivo CSV

Passo 4: Alterar os nomes das colunas (opcional)

Qual é a sintaxe da função Python Pandas `read_csv()`?

Quais são os parâmetros mais importantes da função `pandas.read_csv()`?

Instruções passo a passo: Acessar arquivos CSV