Hvad er funktionen substring() i R?
R’s substring() er nyttig til at forberede data til analyser. Den kan f.eks. bruges til at konvertere tekstdata til bedre strukturerede formater.
Hvad bruges R’s substring() -funktion til?
R’s substring() er en indbygget funktion, der vælger en del af en eksisterende streng. Den giver mulighed for en præcis definition af start- og slutindekserne, så du kan isolere den del af strengen, du har brug for. Funktionen har en række anvendelsesmuligheder, fra datarensning til udtrækning af specifikke oplysninger fra ustrukturerede tekstdata. Du kan f.eks. bruge den til at udtrække postnumre fra adresser eller datoer fra tidsstempler.
substring() er fleksibel i situationer, der kræver finjustering af placeringen og længden af udvalgte delstrenge. Metoden bruges ofte i dataanalyser og til at forberede tekstdata til videre behandling.
Hvad er syntaksen for funktionen substring() i R?
substring() returnerer den del af strengen, der er blevet udtrukket, og tager følgende parametre:
substring(x, first, last)Rx: Den streng, som delstrengen skal udtrækkes frafirst: Startindekset (det første tegn) for den delstreng, du vil udtrækkelast: Slutindekset (det sidste tegn) for den delstreng, du vil udtrække
Lad os se på et eksempel.
original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: dataRI dette eksempel vælger vi en delstreng fra indeks 1 til indeks 4 i strengen "data analysis" og gemmer den i variablen result. Outputtet er "data".
Hvad er nogle praktiske anvendelser af R’s substring()?
Når du behandler datasæt, skal du ofte vælge, manipulere eller udtrække bestemte dele af strenge. Du kan bruge funktionen substring() i R til at gøre dette på forskellige måder.
Uddrag af tegn med substring()
Du kan gemme indekser i variabler og derefter indtaste dem som argumenter i substring().
# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: ScienceRDette eksempel viser, hvad substring() gør. En delstreng fra position 6 til 12 blev valgt fra den oprindelige streng "Data Science". Vi definerede variablerne start_index som startpunkt og end_index som slutpunkt. Outputtet viser den udtrukne delstreng, i dette tilfælde "Science". Slutindeksets værdi på 12 er inklusiv, hvilket betyder, at tegnet fra position 12 er inkluderet i delstrengen.
Manipulering af strenge med funktionen substring() i R
Først opretter vi en dataramme df, der indeholder ID’er, alder og erhverv. Derefter bruger vi funktionen substring() til at indsætte et mellemrum i den anden position i hver streng i ID-kolonnen.
# Creating a sample data frame
df <- data.frame(
ID = c("01235", "02345", "04531"),
Age = c(25, 30, 22),
Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)RI dette eksempel udtrækker substring() det første ciffer i hvert tal (substring(df$ID, 1, 1) og resten af talsekvensen fra den anden position (substring(df$ID, 2)). Der indsættes derefter et mellemrum mellem disse to delstrenge ved hjælp af R paste. Resultatet vises i ID-kolonnen i datarammen.
Resultatet ser således ud:
Modified Data Frame:
ID Age Occupation
1 0 1235 25 Engineer
2 0 2345 30 Doctor
3 0 4531 22 TeacherR