R-funksjonen substring() er nyttig for å forberede data for analyse. Den kan for eksempel brukes til å konvertere tekstdata til bedre strukturerte formater.

Hva brukes R-funksjonen substring() til?

R’s substring() er en innebygd funksjon som velger ut en del av en eksisterende streng. Den gjør det mulig å definere start- og sluttindeksene nøyaktig, slik at du kan isolere den delen av strengen du trenger. Funksjonen har en rekke bruksområder, fra datarengjøring til å trekke ut spesifikk informasjon fra ustrukturerte tekstdata. Du kan for eksempel bruke den til å trekke ut postnummer fra adresser eller datoer fra tidsstempler.

substring() er fleksibel i situasjoner som krever finjustering av posisjonen og lengden på valgte delstrenger. Metoden brukes ofte i dataanalyser og for å forberede tekstdata for videre behandling.

Hva er syntaksen til funksjonen substring() i R?

substring() returnerer den delen av strengen som er hentet ut, og tar følgende parametere:

substring(x, first, last)
R
  • x: Strengen som delstrengen skal hentes fra
  • first: Startindeksen (det første tegnet) for delstrengen du vil trekke ut
  • last: Sluttindeksen (det siste tegnet) for delstrengen du vil trekke ut

La oss se på et eksempel.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

I dette eksemplet velger vi en delstreng fra indeks 1 til indeks 4 i strengen "data analysis" og lagrer den i variabelen result. Utdataene er "data".

Hva er noen praktiske bruksområder for R’s substring()?

Når du behandler datasett, må du ofte velge, manipulere eller trekke ut bestemte deler av strenger. Du kan bruke funksjonen substring() i R til å gjøre dette på forskjellige måter.

Ekstrahering av tegn med substring()

Du kan lagre indekser i variabler og deretter legge dem inn som argumenter i substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Dette eksemplet viser hva substring() gjør. En delstreng fra posisjon 6 til 12 ble valgt fra den opprinnelige strengen "Data Science". Vi definerte variablene start_index som startpunkt og end_index som sluttpunkt. Utdataene viser den ekstraherte delstrengen, i dette tilfellet "Science". Sluttindeksens verdi på 12 er inkluderende, noe som betyr at tegnet fra posisjon 12 er inkludert i delstrengen.

Manipulering av strenger med funksjonen substring() i R

Først oppretter vi en dataramme df som inneholder ID-er, alder og yrker. Deretter bruker vi funksjonen substring() til å sette inn et mellomrom i andre posisjon i hver streng i ID-kolonnen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

I dette eksemplet trekker substring() ut det første sifferet i hvert tall (substring(df$ID, 1, 1) og resten av tallsekvensen fra og med den andre posisjonen (substring(df$ID, 2)). Deretter settes det inn et mellomrom mellom disse to delstrengene ved hjelp av R paste. Resultatet vises i ID-kolonnen i datarammen.

Resultatet ser slik ut:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Go to Main Menu