As funções R gsub() e R sub() são usadas na ma­ni­pu­la­ção de textos. Elas são fáceis de usar e podem ser com­bi­na­das com outras funções. Você pode integrá-las per­fei­ta­mente em análises de dados e em cálculos es­ta­tís­ti­cos, por exemplo.

O que fazem as funções R gsub() e R sub()?

As funções R gsub() e R sub() subs­ti­tuem padrões em strings. A função sub(), abre­vi­a­ção de “subs­ti­tute”, localiza a primeira ocor­rên­cia de um padrão em uma string e a substitui por outra expressão. Tal função só faz subs­ti­tui­ções simples. Já gsub() é a abre­vi­a­ção de “global subs­ti­tute” e é capaz de localizar todas as ocor­rên­cias de um padrão em uma string e substituí-las por outra expressão.

As duas funções têm amplas pos­si­bi­li­da­des de aplicação em tarefas de limpeza e trans­for­ma­ção de dados. Sua principal fi­na­li­dade é excluir padrões in­de­se­ja­dos e adaptar textos. Elas são es­pe­ci­al­mente im­por­tan­tes na ma­ni­pu­la­ção de textos de análises es­ta­tís­ti­cas e apli­ca­ções de apren­di­zado de máquina (machine learning) na linguagem R. Por exemplo, o usuário pode usar essas funções para extrair de­ter­mi­na­dos padrões ou trans­for­mar dados no formato ne­ces­sá­rio para a re­a­li­za­ção de uma análise.

Sintaxe de R gsub() e R sub()

As sintaxes das funções R gsub() e R sub() são muito parecidas. Os dois métodos usam os seguintes pa­râ­me­tros:

  • padrão: O padrão que você procura na forma de uma string ou expressão regular
  • subs­ti­tuto: A expressão que subs­ti­tuirá o padrão
  • x: O vetor ou data frame em que a busca e a subs­ti­tui­ção serão re­a­li­za­das

Estrutura de R gsub()

gsub(padrão, substituto, x)
R

Estrutura de R sub()

sub(padrão, substituto, x)
R

Exemplos de uso da função R gsub()

A ca­rac­te­rís­tica que di­fe­ren­cia a função R gsub() é a ca­pa­ci­dade que ela tem de localizar e subs­ti­tuir todas as ocor­rên­cias de um padrão.

Excluir espaços

Você pode usar a função R gsub() para remover espaços de sobra em strings.

frase <- "  A ciência   de dados é   poderosa.  "
frase_limpa <- gsub("\\s+", " ", frase)
cat(frase_limpa)
R

O resultado é:

"A ciência de dados é poderosa."
R

A expressão regular \\s+ cor­res­ponde a um ou mais espaços con­se­cu­ti­vos. Ao usá-la no exemplo acima, con­se­gui­mos remover o excesso de espaços da frase original.

Subs­ti­tuir números de telefone

A função R gsub() também é útil para ano­ni­mi­zar ou excluir dados privados, como números de telefone, por exemplo.

texto <- "Entre em contato pelo telefone 123-456-7890 para mais informações."
texto_modificado <- gsub("\\d{3}-\\d{3}-\\d{4}", "número de telefone ocultado", texto)
cat(texto_modificado)
R

Este é o resultado:

"Entre em contato pelo telefone número de telefone ocultado para mais informações."
R

No exemplo acima, extraímos o número de telefone com a expressão regular \\d{3}-\\d{3}-\\d{4}. Depois, o subs­ti­tuí­mos pela string "número de telefone ocultado".

Exemplos de uso da função R sub()

Se você quiser subs­ti­tuir apenas a primeira ocor­rên­cia de um padrão, pode usar a função R sub().

Subs­ti­tuir a primeira ocor­rên­cia de uma palavra

Imagine que uma string tenha uma palavra repetida e você queira subs­ti­tuir a primeira ocor­rên­cia dessa palavra.

texto <- "A ciência de dados é poderosa. A análise de dados é divertida."
resultado_sub <- sub("dados", "redes", texto)
cat(resultado_sub)
R

O resultado seria:

"A ciência de redes é poderosa. A análise de dados é divertida."
R

A função R sub() procura pela string "dados" no texto e substitui a primeira ocor­rên­cia en­con­trada por "redes".

Subs­ti­tuir números

Também é possível subs­ti­tuir números com a função R sub(). Veja:

texto_numerico <- "O custo é de US$ 100. Pague até 01/02/2024."
resultado <- sub("\\d+", "200", texto_numerico)
cat(resultado)
R

Resultado:

"O custo é de US$ 200. Pague até 01/02/2024."
R

A expressão regular \\d+ cor­res­ponde a um ou mais dígitos. A função R sub(), como pode ser observado, substitui apenas o primeiro grupo de dígitos no texto.

Dica

Explore outros artigos do nosso Digital Guide para conhecer outras im­por­tan­tes funções em R, como R substring e R rbind.

Hos­pe­da­gem que se adapta às suas ambições
  • Fique online com 99,99% de tempo de atividade e segurança robusta
  • Aumente o de­sem­pe­nho com um clique à medida que o tráfego cresce
  • Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana
Ir para o menu principal