R’s substring() er nyttig til at forberede data til analyser. Den kan f.eks. bruges til at kon­ver­te­re tekstdata til bedre struk­tu­re­re­de formater.

Hvad bruges R’s substring() -funktion til?

R’s substring() er en indbygget funktion, der vælger en del af en ek­si­ste­ren­de streng. Den giver mulighed for en præcis de­fi­ni­tion af start- og slu­tin­dek­ser­ne, så du kan isolere den del af strengen, du har brug for. Funk­tio­nen har en række an­ven­del­ses­mu­lig­he­der, fra da­ta­rens­ning til ud­træk­ning af spe­ci­fik­ke op­lys­nin­ger fra ustruk­tu­re­re­de tekstdata. Du kan f.eks. bruge den til at udtrække postnumre fra adresser eller datoer fra tids­stemp­ler.

substring() er fleksibel i si­tu­a­tio­ner, der kræver finju­ste­ring af pla­ce­rin­gen og længden af udvalgte del­stren­ge. Metoden bruges ofte i da­ta­a­na­ly­ser og til at forberede tekstdata til videre be­hand­ling.

Hvad er syntaksen for funk­tio­nen substring() i R?

substring() re­tur­ne­rer den del af strengen, der er blevet udtrukket, og tager følgende parametre:

substring(x, first, last)
R
  • x: Den streng, som del­stren­gen skal udtrækkes fra
  • first: Star­tin­dek­set (det første tegn) for den delstreng, du vil udtrække
  • last: Slu­tin­dek­set (det sidste tegn) for den delstreng, du vil udtrække

Lad os se på et eksempel.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

I dette eksempel vælger vi en delstreng fra indeks 1 til indeks 4 i strengen "data analysis" og gemmer den i variablen result. Outputtet er "data".

Hvad er nogle praktiske an­ven­del­ser af R’s substring()?

Når du behandler datasæt, skal du ofte vælge, ma­ni­p­u­le­re eller udtrække bestemte dele af strenge. Du kan bruge funk­tio­nen substring() i R til at gøre dette på for­skel­li­ge måder.

Uddrag af tegn med substring()

Du kan gemme indekser i variabler og derefter indtaste dem som ar­gu­men­ter i substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Dette eksempel viser, hvad substring() gør. En delstreng fra position 6 til 12 blev valgt fra den op­rin­de­li­ge streng "Data Science". Vi de­fi­ne­re­de va­ri­ab­ler­ne start_index som start­punkt og end_index som slutpunkt. Outputtet viser den udtrukne delstreng, i dette tilfælde "Science". Slu­tin­dek­sets værdi på 12 er inklusiv, hvilket betyder, at tegnet fra position 12 er in­klu­de­ret i del­stren­gen.

Ma­ni­p­u­le­ring af strenge med funk­tio­nen substring() i R

Først opretter vi en dataramme df, der in­de­hol­der ID’er, alder og erhverv. Derefter bruger vi funk­tio­nen substring() til at indsætte et mellemrum i den anden position i hver streng i ID-kolonnen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

I dette eksempel udtrækker substring() det første ciffer i hvert tal (substring(df$ID, 1, 1) og resten af tal­se­kven­sen fra den anden position (substring(df$ID, 2)). Der indsættes derefter et mellemrum mellem disse to del­stren­ge ved hjælp af R paste. Re­sul­ta­tet vises i ID-kolonnen i da­ta­ram­men.

Re­sul­ta­tet ser således ud:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Gå til ho­ved­me­nu­en