A função substring() do R é ideal para preparar dados para análise, es­pe­ci­al­mente quando você precisa trans­for­mar dados de texto em formatos mais es­tru­tu­ra­dos.

O que é substring() em R?

No R, substring() é uma função in­cor­po­rada que permite se­le­ci­o­nar sub­ca­deias de uma cadeia maior, es­pe­ci­fi­cando com precisão o índice inicial e final para isolar a parte desejada da cadeia. substring() é uma função do R usada para uma grande variedade de apli­ca­ções, desde limpar dados até extrair in­for­ma­ções es­pe­cí­fi­cas de dados de texto não es­tru­tu­ra­dos. Por exemplo, pode utilizar a função substring() no R para obter códigos postais de endereços completos ou extrair datas de marcas de tempo.

A fle­xi­bi­li­dade do substring() em R torna-o essencial em situações que exigem um controlo preciso sobre a posição e o com­pri­mento da subcadeia se­le­ci­o­nada. Também é comum usá-lo na análise de dados e para preparar dados de texto para pro­ces­sa­men­tos mais avançados, es­tru­tu­rando os dados ade­qua­da­mente.

A sintaxe da função substring() em R

A função substring() em R permite extrair uma subcadeia de uma cadeia maior. Ela aceita os seguintes pa­râ­me­tros:

substring(x, first, last)
R
  • x: é a cadeia da qual pretende extrair a subcadeia.
  • first: é o índice do primeiro caractere na cadeia que pretende extrair.
  • last: é o índice do último caractere na subcadeia que pretende extrair.

Aqui está um exemplo concreto:

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

Seleciona o subs­trings do índice 1 até o índice 4 na string "data analysis". É ar­ma­ze­nado na variável result. A saída é "data".

Aplicação prática de substring() em R

Ao editar conjuntos de dados, muitas vezes é ne­ces­sá­rio se­le­ci­o­nar, manipular ou eliminar partes es­pe­cí­fi­cas de cadeias de ca­rac­te­res. A função substring() no R permite fazer isso de várias maneiras.

Extrair ca­rac­te­res com substring()

Você pode armazenar os índices em variáveis e passá-los como pa­râ­me­tros para a função substring() no R.

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Este exemplo utiliza a função substring() em R para se­le­ci­o­nar uma subcadeia da posição 6 à 12 da string original "Data Science". Define as variáveis start_index como índice inicial e end_index como índice final para a extração. O resultado obtido do programa mostra a subcadeia extraída, que neste caso é "Science". O valor do índice final de 12 está incluído, pelo que o caractere que se encontra na posição 12 também pode ser en­con­trado na subcadeia extraída.

Manipular strings com a função substring() em R

Crie uma estrutura de dados df que contenha IDs, idades e ocupações. Utilize a função substring() no R para inserir um espaço na segunda posição de cada cadeia na coluna "ID".

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space at the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

Este exemplo utiliza a função substring() do R para extrair o primeiro dígito de cada número (substring(df$ID, 1, 1) e o restante da sequência numérica a partir da segunda posição (substring(df$ID, 2)). Em seguida, insere um espaço entre os dois segmentos com a função paste do R. O resultado mo­di­fi­cado aparece na coluna ID do quadro de dados.

Resultado:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Ir para o menu principal