Como unir DataFrames com Pandas merge() em Python

Tabela de Conteúdos

A função Pandas DataFrame.merge() é utilizada para unir dois DataFrames com base em chaves (keys) comuns. Desta forma, pode combinar dados de diferentes fontes de maneira eficiente para realizar análises mais completas.

Sintaxe da função Pandas `merge()`

A função Pandas DataFrame.merge() da Biblioteca Python Pandas aceita uma ampla variedade de parâmetros que afetam a forma como os DataFrames são combinados. A sintaxe geral da função merge() é a seguinte:

DataFrame.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

python

Parâmetros relevantes

Com os diferentes parâmetros aceites pela função Pandas merge(), não só especifica os DataFrames que deseja combinar, mas também o tipo de união (também chamado de join em inglês) e outros detalhes adicionais.

Parâmetro	Descrição	Valor predefinido
`left`	Primeiro DataFrame a ser combinado
`right`	Segundo DataFrame a ser combinado
`how`	Tipo de união a ser realizada (`inner`, `outer`, `left` ou `right`)	`inner`
`on`	Coluna ou nível de índice utilizado como chave; deve estar presente em ambos os DataFrames
`left_on`	Coluna ou nível de índice do DataFrame esquerdo utilizado como chave
`right_on`	Coluna ou nível de índice do DataFrame direito usado como chave
`left_index`	Se for `True`, o índice do DataFrame esquerdo é usado como chave	`False`
`right_index`	Se for `True`, o índice do DataFrame direito é usado como chave	`False`
`sort`	Se for `True`, as chaves resultantes do DataFrame são ordenadas de forma lexicográfica	`False`
`suffixes`	Sufixos utilizados para tornar únicas as colunas com nomes duplicados	`("_x", "_y")`
`copy`	Se for `False`, não é feita uma cópia	`True`

Como utilizar o Pandas `merge()`

Apresentamos uma série de exemplos que o ajudarão a compreender como funciona o Pandas merge().

`INNER JOIN` ou união interna

Um INNER JOIN ou junção interna une dois DataFrames do Pandas e retorna apenas as linhas em que as chaves coincidem em ambos os DataFrames. Primeiro, criaremos dois DataFrames que servirão de exemplo:

import pandas as pd
# DataFrames de ejemplo
df1 = pd.DataFrame({
    'Clave': ['A', 'B', 'C'],
    'Valor1': [1, 2, 3]
})
df2 = pd.DataFrame({
    'Clave': ['B', 'C', 'D'],
    'Valor2': [4, 5, 6]
})
print(df1)
print(df2)

python

Os dois DataFrames resultantes teriam a seguinte aparência:

Clave    Valor1
0        A             1
1        B             2
2        C             3
    Clave    Valor2
0        B             4
1        C             5
2        D             6

Agora pode realizar um INNER JOIN utilizando a função die merge():

# INNER JOIN
result = pd.merge(df1, df2, how='inner', on='Clave')
print(result)

python

A saída mostra que, neste exemplo, apenas as linhas com as chaves B e C são incluídas no DataFrame resultante, uma vez que estas estão presentes em ambos os DataFrames originais.

Clave    Valor1    Valor2
0        B            2            4
1        C            3            5

`OUTER JOIN` ou união externa

Uma OUTER JOIN ou junção externa também une dois DataFrames. Ao contrário da junção interna (INNER JOIN), com a junção externa todas as linhas são devolvidas e os valores em falta são preenchidos com NaN.

# OUTER JOIN
result = pd.merge(df1, df2, how='outer', on='Clave')
print(result)

python

Como era de se esperar, o DataFrame resultante inclui todas as linhas de ambos os DataFrames. Para a chave A, que só está presente em df1, e a chave D, que só está presente em df2, os valores ausentes são preenchidos com NaN.

Clave    Valor1    Valor2
0        A        1.0        NaN
1        B        2.0        4.0
2        C        3.0        5.0
3        D        NaN        6.0

Nota

As restantes variantes de JOIN que incluímos na tabela anterior funcionam de forma análoga.

Utilização de `left_on` e `right_on`

Às vezes, os dois DataFrames têm nomes de colunas-chave diferentes. Nesse caso, pode usar os parâmetros left_on e right_on para especificar quais colunas devem ser utilizadas. Para isso, primeiro deve criar dois novos DataFrames:

df3 = pd.DataFrame({
    'Clave': ['A', 'B', 'C'],
    'Valor1': [1, 2, 3]
})
df4 = pd.DataFrame({
    'Clave2': ['B', 'C', 'D'],
    'Valor2': [4, 5, 6]
})
print(df3)
print(df4)

python

Os dois DataFrames resultantes têm a seguinte aparência:

Clave    Valor1
0        A            1
1        B            2
2        C            3
    Clave2    Valor2
0        B            4
1        C            5
2        D            6

Para realizar a operação JOIN com chaves diferentes, especificam-se os parâmetros left_on e right_on:

# Unir con diferentes nombres de columnas clave
result = pd.merge(df3, df4, how='inner', left_on='Clave', right_on='Clave2')
print(result)

python

Ao utilizar explicitamente left_on='Clave' e right_on='Clave2', as colunas-chave correspondentes são utilizadas para realizar a junção.

Clave  Valor1 Clave2 Valor2
0     B        2        B        4
1     C        3        C        5

Utilização de índices como chave

Também pode utilizar os índices dos DataFrames como chave para a junção, configurando os parâmetros left_index e right_index em True. Primeiro, são criados dois novos DataFrames com índices:

df5 = pd.DataFrame({
    'Valor1': [1, 2, 3]
}, index=['A', 'B', 'C'])
df6 = pd.DataFrame({
    'Valor2': [4, 5, 6]
}, index=['B', 'C', 'D'])
print(df5)
print(df6)

python

Com o código anterior, são gerados os seguintes DataFrames:

Agora é possível realizar uma operação de junção baseada em índices com Pandas merge():

# Unir con índices
result = pd.merge(df5, df6, how='inner', left_index=True, right_index=True)
print(result)

python

O resultado, como era de se esperar, é uma união ou JOIN baseada nos índices dos DataFrames:

Valor1  Valor2
B        2        4
C        3        5

O método Pandas fillna() para substituir valores NaN

A função fillna() do Pandas é um método utilizado para gerir valores em falta. Oferece uma grande flexibilidade através da utilização de vários parâmetros que permitem adaptar a substituição dos valores NaN de acordo com as necessidades do utilizador. Neste artigo, irá conhecer…

Leia mais

Obter valores nulos com Pandas isna()

Pandas DataFrame isna() é útil para identificar os dados que faltam num DataFrame. Graças à sua sintaxe simples, permite obter rapidamente uma visão geral dos valores que faltam para que possa tomar as medidas adequadas para limpar os dados. Neste artigo, aprenderá exatamente…

Leia mais

BEST-BACKGROUNDSShutterstock

Pesquisar em DataFrames com Pandas isin()

Pandas isin() é uma função muito útil para a análise de dados. Com a sua sintaxe simples e múltiplas aplicações, permite verificar de forma rápida e eficiente se determinados valores estão presentes num DataFrame. Seja para verificar colunas específicas, filtrar DataFrames ou…

Leia mais

NDAB Creativityshutterstock

Como utilizar o método Pandas groupby()

A função DataFrame.groupby() do Pandas permite agrupar dados de acordo com diferentes critérios e realizar agregações complexas de forma eficiente. Se aplicar este método corretamente, poderá realizar análises de forma mais rápida e simples. Descubra tudo o que precisa aprender…

Leia mais

UndreyShutterstock

Obter valores únicos com Pandas unique()

A função Pandas DataFrame unique() pode ser utilizada para identificar rapidamente os valores únicos de uma coluna num DataFrame, algo muito útil para encontrar duplicados. Esta função facilita o manuseamento eficiente de grandes conjuntos de dados, pois devolve diretamente uma…

Leia mais

Gorodenkoffshutterstock

Aplicar condições em DataFrames com Pandas DataFrame.where()

Com Pandas DataFrame.where(), pode realizar manipulações condicionais de dados em DataFrames do Pandas. Esta função permite definir condições que determinam quais valores são mantidos e quais são substituídos. É uma solução eficiente para limpar, extrair ou transformar dados.…

Leia mais

Como unir Da­ta­Fra­mes com Pandas merge() em Python

Sintaxe da função Pandas merge()

Pa­râ­me­tros re­le­van­tes

Como utilizar o Pandas merge()

INNER JOIN ou união interna

OUTER JOIN ou união externa

Uti­li­za­ção de left_on e right_on

Uti­li­za­ção de índices como chave

Como unir DataFrames com Pandas merge() em Python

Sintaxe da função Pandas `merge()`

Parâmetros relevantes

Como utilizar o Pandas `merge()`

`INNER JOIN` ou união interna

`OUTER JOIN` ou união externa

Utilização de `left_on` e `right_on`

Utilização de índices como chave