Como carregar arquivos no Python com a função Pandas read_csv()
A função read_csv()
do Python Pandas é um dos métodos mais usados para ler arquivos CSV no Pandas e armazená-los em DataFrames. Os arquivos CSV (sigla de comma-separated values ou valores separados por vírgula) têm um formato amplamente adotado no armazenamento de dados tabulares, além de serem suportados por muitas aplicações.
Rápido e escalável, confie na hospedagem da IONOS, que inclui domínio grátis no primeiro ano e endereço de e-mail!
- Domínio
- SSL Wildcard
- Suporte 24 horas
Qual é a sintaxe da função Python Pandas read_csv()
?
A função pandas.read_csv()
produz um DataFrame no Pandas a partir de um arquivo CSV. Sua sintaxe básica é a seguinte:
Quais são os parâmetros mais importantes da função pandas.read_csv()
?
A função pandas.read_csv()
aceita a inclusão de diversos parâmetros. Para simplificarmos sua compreensão, vamos abordar apenas os mais importantes. Aqui está uma visão geral dos parâmetros que você pode usar para especificar como a função deve se comportar:
Parâmetro | Significado | Valor padrão |
---|---|---|
filepath_or_buffer
|
Esta é uma Python string que representa o caminho até o arquivo CSV ou buffer de dados, como um URL. | |
sep
|
Especifica o delimitador usado entre os valores. | ,
|
header
|
Indica qual linha será usada como título. | infer (primeira linha)
|
names
|
Se a definição for header=None , use names para disponibilizar uma lista em Python dos nomes das colunas.
|
|
index_col
|
Determina qual coluna usar como índice. | None
|
usecols
|
Permite selecionar quais colunas você deseja carregar no DataFrame. | None
|
dtype
|
Especifica o tipo de dados das colunas. | None
|
A lista completa dos parâmetros para essa função está disponível na documentação oficial do Pandas.
Instruções passo a passo: Acessar arquivos CSV
Ao usar a função pandas.read_csv()
, é possível transferir dados de arquivos CSV para o Python em apenas alguns passos.
Nos exemplos a seguir, vamos trabalhar com um arquivo CSV estruturado desta forma:
Passo 1: Importar o Pandas
Primeiro, vamos importar a biblioteca Pandas no script do Python.
Passo 2: Carregar o arquivo CSV
Em seguida, vamos carregar o arquivo CSV no Python Pandas usando a função read_csv()
. Para fazer isso, basta informar o caminho do arquivo (filepath) à função. No código a seguir, usaremos um arquivo chamado dados.csv, que foi salvo no mesmo diretório do script:
O código acima armazenará o arquivo em um objeto de DataFrame (df
), o que possibilitará trabalhar com suas informações. O Pandas interpretará automaticamente a primeira linha como os títulos das colunas, a menos que você especifique o contrário.
Passo 3: Exibir o arquivo CSV
É recomendável observar as primeiras linhas do DataFrame para ter certeza de que o arquivo foi carregado corretamente. Para fazer isso, use a função DataFrame.head()
. Por padrão, ela exibe as cinco primeiras linhas do DataFrame, oferecendo uma visão geral rápida da estrutura de seus dados:
O resultado será este:
Passo 4: Alterar os nomes das colunas (opcional)
Se o seu arquivo CSV não tiver uma linha de cabeçalho, você pode definir manualmente os nomes das colunas:
Neste exemplo, nomeamos as colunas como ID, Nome, Idade, Cidade e Salário. O resultado ficará assim:
Nosso exemplo contém uma baixa quantidade de dados, portanto, ele é simples de gerenciar. No entanto, se você possui um arquivo CSV muito grande, talvez seja uma boa ideia carregá-lo em partes no Pandas para evitar problemas de memória. Para fazer isso, use o parâmetro chunksize
da função pandas.read_csv()
para especificar quantas linhas serão lidas por vez. Ao executar um for loop Python, você conseguirá iterar sobre essas partes.