Selecionar dados de DataFrames com Pandas loc[]

Tabela de Conteúdos

Pandas DataFrame.loc[] é um indexador da biblioteca Python Pandas usado para selecionar dados de um DataFrame com base em rótulos. Dessa forma, você pode extrair linhas e colunas específicas de um DataFrame.

Sintaxe do Pandas `loc[]`

O parâmetro passado para loc[] é a seleção de etiquetas desejada. Fora isso, a sintaxe é muito simples:

DataFrame.loc[selection]

python

No Pandas loc[], a seleção é feita principalmente com base em etiquetas. O parâmetro passado pode ser uma etiqueta individual, uma lista ou um intervalo de etiquetas. No entanto, também é possível utilizar matrizes booleanas.

Diferenças entre `loc[]` e `iloc[]`

Enquanto o Pandas DataFrame.loc[] seleciona dados com base em etiquetas, existe outro indexador semelhante no Pandas, o DataFrame.iloc, que é usado para selecionar dados com base em posições inteiras.

O exemplo seguinte ilustra claramente as diferenças entre os dois indexadores. Primeiro, é criado um DataFrame do Pandas:

import pandas as pd
# Ejemplo de DataFrame
data = {'Nombre': ['Ana', 'Juan', 'Tomás'], 'Edad': [23, 35, 30]}
df = pd.DataFrame(data)
print(df)

python

O DataFrame resultante seria o seguinte:

Nombre   Edad
0      Ana     23
1     Juan     35
2    Tomás     30

Se quiséssemos extrair «Ana» do DataFame, poderíamos usar tanto loc[] como iloc[]. O resultado obtido é o mesmo, mas seguindo dois caminhos diferentes:

# Con loc por etiqueta
print(df.loc[0, 'Nombre'])  # Salida: 'Ana'
# Con iloc por posición
print(df.iloc[0, 0])  # Salida: 'Ana'

python

Como utilizar o Pandas `DataFrame.loc[]`

Pandas loc[] serve para extrair subconjuntos de um DataFrame, seja uma ou várias linhas ou colunas. O indexador loc[] pode ter diferentes aplicações de uso.

Seleção de uma linha individual

Em seguida, criaremos um DataFrame de exemplo usando o seguinte código:

import pandas as pd
data = {
    'Nombre': ['Ana', 'Juan', 'Tomás'],
    'Edad': [23, 35, 30],
    'Ciudad': ['León', 'Madrid', 'Salamanca']
}
df = pd.DataFrame(data)
print(df)

python

O DataFrame resultante seria o seguinte:

Nombre  Edad    Ciudad
0      Ana    23      León
1     Juan    35    Madrid
2    Tomás    30 Salamanca

Para selecionar os dados da linha com o índice 1 (que corresponde a Juan), pode-se usar o indexador Pandas loc[]:

juan_data = df.loc[1]
print(juan_data)

python

O resultado seria o seguinte:

Nombre         Juan
Edad             35
Ciudad       Madrid
Name: 1, dtype: object

Seleção de várias colunas

Também pode usar DataFrame.loc[] para selecionar um subconjunto de colunas. O código seleciona as colunas «Nome» e «Cidade» para todas as linhas:

name_stadt = df.loc[:, ['Nombre', 'Ciudad']]
print(name_stadt)

python

Como resultado, obtém um subconjunto do DataFrame original:

Nombre    Ciudad
0      Ana      León
1     Juan    Madrid
2    Tomás Salamanca

Seleção baseada numa condição

Com o Pandas loc[] também é possível selecionar linhas com base numa condição. Neste caso, são utilizados operadores de comparação booleanos. No código a seguir, por exemplo, serão filtradas todas as pessoas com mais de 25 anos:

older_than_25 = df.loc[df['Edad'] > 25]
print(older_than_25)

python

Nombre  Edad    Ciudad
1     Juan    35    Madrid
2    Tomás    30 Salamanca

Pandas DataFrame: como manipular tabelas em Python de maneira simples

O módulo Pandas é uma das melhores ferramentas para manipular dados em Python. Os DataFrames são uma das estruturas de dados centrais no Pandas e servem para manipular dados bidimensionais estruturados de forma clara e eficiente. Explicamos a sua estrutura e propriedades a partir…

Leia mais

Mr. Kosalshutterstock

Como utilizar o Pandas DataFrame Index

A indexação dos DataFrames do Pandas é uma ferramenta fantástica para trabalhar com dados de forma mais eficiente. Existem diferentes métodos com os quais pode aceder a dados e subconjuntos específicos do seu DataFrame para manipulá-los. Explicamos o que é o índice de um…

Leia mais

BEST-BACKGROUNDSShutterstock

Iterar sobre DataFrames com Pandas itterows()

Pandas DataFrame itterows() é uma forma de iterar sobre as linhas de um DataFrame do Pandas. Esta função é usada especialmente quando é necessário um processamento linha por linha, por exemplo, ao realizar cálculos. Neste artigo, ensinamos como trabalhar com a função itterows()…

Leia mais

Mr. Kosalshutterstock

Guia rápido sobre o método Pandas any()

O método any() para DataFrames do Pandas é uma ferramenta muito útil para verificar rapidamente se existe pelo menos um valor True ou verdadeiro num eixo específico de um DataFrame. Isto é muito útil para a análise e validação de dados. Quer saber como utilizar esta função?…

Leia mais

Ranjit Karmakarshutterstock

Guia rápido sobre o método Pandas describe()

O método DataFrame.describe() do Pandas permite-nos gerar rapidamente um resumo estatístico completo dos dados numéricos num DataFrame. Oferece a possibilidade de ajustar os quantis e especificar tipos de dados, o que o torna um método extremamente flexível e adequado para…

Leia mais

Se­le­ci­o­nar dados de Da­ta­Fra­mes com Pandas loc[]

Sintaxe do Pandas loc[]

Di­fe­ren­ças entre loc[] e iloc[]

Como utilizar o Pandas DataFrame.loc[]

Seleção de uma linha in­di­vi­dual

Seleção de várias colunas

Seleção baseada numa condição

Selecionar dados de DataFrames com Pandas loc[]

Sintaxe do Pandas `loc[]`

Diferenças entre `loc[]` e `iloc[]`

Como utilizar o Pandas `DataFrame.loc[]`

Seleção de uma linha individual