A função R substring() é um recurso útil para a pre­pa­ra­ção de dados para análises. Por exemplo, ela pode ser usada para converter dados de texto em formatos mais bem es­tru­tu­ra­dos. A função substring() em R também é eficaz para ajustar in­for­ma­ções e pa­dro­ni­zar dados antes da re­a­li­za­ção de análises es­ta­tís­ti­cas.

Para que é usada a função R substring()?

R substring() é uma função integrada dessa linguagem de pro­gra­ma­ção, que seleciona parte de uma string existente. Ela pos­si­bi­lita definir índices iniciais e finais com precisão para isolar a parte que você quiser de uma string. A função apresenta diversas pos­si­bi­li­da­des de uso, que variam desde limpeza de dados até extração de in­for­ma­ções es­pe­cí­fi­cas de textos não es­tru­tu­ra­dos. Por exemplo, você pode usá-la para extrair códigos postais de endereços ou datas de ti­mes­tamps.

A função substring() em R é flexível, sendo ideal para situações que exigem controle refinado da posição e do com­pri­mento das subs­trings se­le­ci­o­na­das. Ela é fre­quen­te­mente usada na re­a­li­za­ção de análise de dados e na pre­pa­ra­ção de dados de texto para pro­ces­sa­mento.

Sintaxe da função substring() em R

A função R substring() retorna a parte extraída de uma string, levando em con­si­de­ra­ção os seguintes pa­râ­me­tros:

substring(x, primeiro, último)
R
  • x: A string da qual a substring será extraída
  • primeiro: O índice inicial (primeiro caractere) da substring que você deseja extrair
  • último: O índice final (último caractere) da substring que você deseja extrair

Agora, vamos analisar o exemplo abaixo.

string_original <- "dados de análise"
resultado <- substring(string_original, 1, 5)
print(resultado)
# Resultado: dados
R

Nesse exemplo de código, se­le­ci­o­na­mos uma substring dos índices 1 a 5 da string "dados de análise" e a salvamos na variável resultado. O resultado obtido é "dados".

Exemplos de uso da função R substring()

Ao processar conjuntos de dados, é comum que você precise se­le­ci­o­nar, manipular ou extrair de­ter­mi­na­das partes de strings. Com a função substring() em R, é possível fazer isso de di­fe­ren­tes formas.

Extrair ca­rac­te­res com a função R substring()

Você pode salvar índices em variáveis e inseri-los como ar­gu­men­tos da função substring(). Observe:

# String original
string_original <- "Dados científicos"
# Índices de extração
indice_inicial <- 7
indice_final <- 17
# Uso de substring() para extração
substring_criada <- substring(string_original, indice_inicial, indice_final)
print(substring_criada)
# Resultado: científicos
R

O exemplo de código acima mostra a função R substring() em ação. Se­le­ci­o­na­mos uma substring entre as posições 7 a 17 da string original "Dados científicos". Definimos as variáveis indice_inicial como ponto inicial e indice_final como ponto final. O resultado mostra a substring extraída (nesse caso, "científicos"). O valor 17 no índice final é inclusivo, o que significa que o caractere que ocupa a posição 17 também faz parte da substring.

Manipular strings com a função substring() em R

Primeiro, vamos criar o data frame df composto por IDs, idades e pro­fis­sões. Em seguida, usaremos a função R substring() para inserir um espaço na segunda posição de cada string da coluna ID. Veja:

# Criação de data frame de exemplo
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Idade = c(25, 30, 22),
    Profissão = c("Engenheiro", "Médico", "Professor")
)
# Inserção de espaço na segunda posição da coluna "ID"
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Exibição do data frame modificado
print("Data frame modificado:")
print(df)
R

No exemplo acima, a função substring() extrai o primeiro dígito de cada número (substring(df$ID, 1, 1), enquanto o restante da sequência numérica começa a partir da segunda posição (substring(df$ID, 2)). O espaço é inserido entre essas duas subs­trings por meio da função R paste. O resultado aparece na coluna “ID” do data frame.

Este será o resultado apre­sen­tado:

Data frame modificado:
    ID         Idade  Profissão
1  0 1235  25     Engenheiro
2  0 2345  30     Médico
3  0 4531  22     Professor
R
Dica

Se você quer aprimorar os seus co­nhe­ci­men­tos sobre strings em R, confira este tutorial sobre R gsub() e sub() do nosso Digital Guide.

Hos­pe­da­gem que se adapta às suas ambições
  • Fique online com 99,99% de tempo de atividade e segurança robusta
  • Aumente o de­sem­pe­nho com um clique à medida que o tráfego cresce
  • Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana
Ir para o menu principal