Hvad er funktionen substring() i R?

Indhold

R’s substring() er nyttig til at forberede data til analyser. Den kan f.eks. bruges til at konvertere tekstdata til bedre strukturerede formater.

Hvad bruges R’s `substring()` -funktion til?

R’s substring() er en indbygget funktion, der vælger en del af en eksisterende streng. Den giver mulighed for en præcis definition af start- og slutindekserne, så du kan isolere den del af strengen, du har brug for. Funktionen har en række anvendelsesmuligheder, fra datarensning til udtrækning af specifikke oplysninger fra ustrukturerede tekstdata. Du kan f.eks. bruge den til at udtrække postnumre fra adresser eller datoer fra tidsstempler.

substring() er fleksibel i situationer, der kræver finjustering af placeringen og længden af udvalgte delstrenge. Metoden bruges ofte i dataanalyser og til at forberede tekstdata til videre behandling.

Hvad er syntaksen for funktionen `substring()` i R?

substring() returnerer den del af strengen, der er blevet udtrukket, og tager følgende parametre:

substring(x, first, last)

x: Den streng, som delstrengen skal udtrækkes fra
first: Startindekset (det første tegn) for den delstreng, du vil udtrække
last: Slutindekset (det sidste tegn) for den delstreng, du vil udtrække

Lad os se på et eksempel.

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data

I dette eksempel vælger vi en delstreng fra indeks 1 til indeks 4 i strengen "data analysis" og gemmer den i variablen result. Outputtet er "data".

Hvad er nogle praktiske anvendelser af R’s `substring()`?

Når du behandler datasæt, skal du ofte vælge, manipulere eller udtrække bestemte dele af strenge. Du kan bruge funktionen substring() i R til at gøre dette på forskellige måder.

Uddrag af tegn med `substring()`

Du kan gemme indekser i variabler og derefter indtaste dem som argumenter i substring().

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science

Dette eksempel viser, hvad substring() gør. En delstreng fra position 6 til 12 blev valgt fra den oprindelige streng "Data Science". Vi definerede variablerne start_index som startpunkt og end_index som slutpunkt. Outputtet viser den udtrukne delstreng, i dette tilfælde "Science". Slutindeksets værdi på 12 er inklusiv, hvilket betyder, at tegnet fra position 12 er inkluderet i delstrengen.

Manipulering af strenge med funktionen `substring()` i R

Først opretter vi en dataramme df, der indeholder ID’er, alder og erhverv. Derefter bruger vi funktionen substring() til at indsætte et mellemrum i den anden position i hver streng i ID-kolonnen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space in the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)

I dette eksempel udtrækker substring() det første ciffer i hvert tal (substring(df$ID, 1, 1) og resten af talsekvensen fra den anden position (substring(df$ID, 2)). Der indsættes derefter et mellemrum mellem disse to delstrenge ved hjælp af R paste. Resultatet vises i ID-kolonnen i datarammen.

Resultatet ser således ud:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher

Populære artikler

Domænehandel: Sådan sælger du et domænenavn

Køb og salg af domæner kan være en god forretning – hvis man ved, hvordan man gør. Vi vil…

Læs mere

Hvad er funk­tio­nen substring() i R?

Hvad bruges R’s substring() -funktion til?

Hvad er syntaksen for funk­tio­nen substring() i R?

Hvad er nogle praktiske an­ven­del­ser af R’s substring()?

Uddrag af tegn med substring()

Ma­ni­p­u­le­ring af strenge med funk­tio­nen substring() i R