O que é e como usar a função R substring()?
A função R substring() é um recurso útil para a preparação de dados para análises. Por exemplo, ela pode ser usada para converter dados de texto em formatos mais bem estruturados. A função substring() em R também é eficaz para ajustar informações e padronizar dados antes da realização de análises estatísticas.
Para que é usada a função R substring()?
R substring() é uma função integrada dessa linguagem de programação, que seleciona parte de uma string existente. Ela possibilita definir índices iniciais e finais com precisão para isolar a parte que você quiser de uma string. A função apresenta diversas possibilidades de uso, que variam desde limpeza de dados até extração de informações específicas de textos não estruturados. Por exemplo, você pode usá-la para extrair códigos postais de endereços ou datas de timestamps.
A função substring() em R é flexível, sendo ideal para situações que exigem controle refinado da posição e do comprimento das substrings selecionadas. Ela é frequentemente usada na realização de análise de dados e na preparação de dados de texto para processamento.
Sintaxe da função substring() em R
A função R substring() retorna a parte extraída de uma string, levando em consideração os seguintes parâmetros:
substring(x, primeiro, último)Rx: A string da qual a substring será extraídaprimeiro: O índice inicial (primeiro caractere) da substring que você deseja extrairúltimo: O índice final (último caractere) da substring que você deseja extrair
Agora, vamos analisar o exemplo abaixo.
string_original <- "dados de análise"
resultado <- substring(string_original, 1, 5)
print(resultado)
# Resultado: dadosRNesse exemplo de código, selecionamos uma substring dos índices 1 a 5 da string "dados de análise" e a salvamos na variável resultado. O resultado obtido é "dados".
Exemplos de uso da função R substring()
Ao processar conjuntos de dados, é comum que você precise selecionar, manipular ou extrair determinadas partes de strings. Com a função substring() em R, é possível fazer isso de diferentes formas.
Extrair caracteres com a função R substring()
Você pode salvar índices em variáveis e inseri-los como argumentos da função substring(). Observe:
# String original
string_original <- "Dados científicos"
# Índices de extração
indice_inicial <- 7
indice_final <- 17
# Uso de substring() para extração
substring_criada <- substring(string_original, indice_inicial, indice_final)
print(substring_criada)
# Resultado: científicosRO exemplo de código acima mostra a função R substring() em ação. Selecionamos uma substring entre as posições 7 a 17 da string original "Dados científicos". Definimos as variáveis indice_inicial como ponto inicial e indice_final como ponto final. O resultado mostra a substring extraída (nesse caso, "científicos"). O valor 17 no índice final é inclusivo, o que significa que o caractere que ocupa a posição 17 também faz parte da substring.
Manipular strings com a função substring() em R
Primeiro, vamos criar o data frame df composto por IDs, idades e profissões. Em seguida, usaremos a função R substring() para inserir um espaço na segunda posição de cada string da coluna ID. Veja:
# Criação de data frame de exemplo
df <- data.frame(
ID = c("01235", "02345", "04531"),
Idade = c(25, 30, 22),
Profissão = c("Engenheiro", "Médico", "Professor")
)
# Inserção de espaço na segunda posição da coluna "ID"
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Exibição do data frame modificado
print("Data frame modificado:")
print(df)RNo exemplo acima, a função substring() extrai o primeiro dígito de cada número (substring(df$ID, 1, 1), enquanto o restante da sequência numérica começa a partir da segunda posição (substring(df$ID, 2)). O espaço é inserido entre essas duas substrings por meio da função R paste. O resultado aparece na coluna “ID” do data frame.
Este será o resultado apresentado:
Data frame modificado:
ID Idade Profissão
1 0 1235 25 Engenheiro
2 0 2345 30 Médico
3 0 4531 22 ProfessorRSe você quer aprimorar os seus conhecimentos sobre strings em R, confira este tutorial sobre R gsub() e sub() do nosso Digital Guide.
- Fique online com 99,99% de tempo de atividade e segurança robusta
- Aumente o desempenho com um clique à medida que o tráfego cresce
- Inclui domínio gratuito, SSL, e-mail e suporte 24 horas por dia, 7 dias por semana

