Kuinka jäsentää data-kehyksiä uudelleen R:n melt-toiminnolla

Sisällys

Tietokehysten muuntaminen R-kielessä melt() helpottaa sopeutumista erilaisiin vaatimuksiin. Monet analyysimenetelmät, kuten lineaariset mallit ja ANOVA, suosivat pitkän muodon tietoja, koska ne ovat luonnollisempia ja helpompia tulkita.

Mihin R:n melt()-funktiota käytetään?

R:n melt() kuuluu reshape2 ja sitä käytetään data-kehysten uudelleenjärjestelyyn, erityisesti niiden muuntamiseen leveästä muodosta pitkään muotoon. Leveässä muodossa muuttujat on järjestetty erillisiin sarakkeisiin, kun taas pitkä muoto tarjoaa paremman näytön analyysejä ja visualisointeja varten.

R:n melt() on välttämätön työkalu tietojen muuntamiseen. Se on erityisen tärkeä, kun tiedot ovat saatavilla vain leveässä muodossa, mutta tietyt analyysit tai grafiikat edellyttävät pitkää muotoa. Tämä tietojen uudelleenjärjestelyvaihtoehto lisää tietokehysten joustavuutta ja mahdollistaa erilaisten R-analyysityökalujen ja visualisointikirjastojen optimaalisen käytön.

Mikä on R:n melt()-funktion syntaksi?

R:n melt() -funktiota voidaan mukauttaa käyttämällä erilaisia argumentteja.

melt(data.frame, na.rm = FALSE, value.name = "name", id.vars = 'columns')

data.frame: Tämä viittaa data-kehykseen, jonka haluatte uudelleenjärjestää
na.rm: Valinnainen argumentti, jonka oletusarvo on FALSE
value.name: Tämän valinnaisen argumentin avulla voit nimetä sarakkeen, joka sisältää uudelleenjärjestettyjen muuttujien arvot uudessa tietojoukossa
id.vars: Valinnainen argumentti, joka ilmaisee, mitkä sarakkeet on säilytettävä tunnisteina. columns käytetään paikanpitäjänä.

Katsotaanpa esimerkkiä:

df <- data.frame(ID = 1:3, A = c(4, 7, NA), B = c(8, NA, 5))

Tuloksena oleva tietorakenne näyttää seuraavalta:

ID    A      B
1  1     4      8
2  2     7  NA
3  3  NA     5

Nyt käytämme melt() ja muunnamme data-kehyksen pitkään muotoon:

melted_df <- melt(df, na.rm = FALSE, value.name = "Value", id.vars = "ID")

Uudelleenjärjestetty tietorakenne melted_df näyttää tältä:

ID  variable  Value
1  1                A              4
2  2                A              7
3  3                A          NA
4  1                B              8
5  2                B          NA
6  3                B             5

Tuloksena on pitkään muotoon uudelleenjärjestetty tietokehys. Sarake ID on säilytetty tunnisteena, sarake variable sisältää aiemmat sarakkeiden nimet (A ja B) ja sarake Value sisältää vastaavat elementit.na.rm = FALSE vuoksi joitakin arvoja puuttuu (merkitty kohdalla NA).

Kuinka poistaa NA-merkinnät R:n melt()-komennolla

Voit poistaa puuttuvat arvot helposti data-kehyksistä vaihtoehdolla na.rm=True.

Määritellään uusi tietokehys:

df <- data.frame(ID = 1:4, A = c(3, 8, NA, 5), B = c(6, NA, 2, 9), C = c(NA, 7, 4, 1))

Tietokehys on seuraavanlainen:

ID    A     B      C
1   1     3     6    NA
2   2     8   NA      7
3   3   NA    2       4
4   4     5     9       1

Nyt rakennamme data-kehyksen uudelleen käyttämällä melt():

melted_df <- melt(df, na.rm = TRUE, value.name = "Value", id.vars = "ID")

Uusi tietokehys melted_df on nyt pitkässä muodossa ilman NA arvoa:

ID    variable  Value
1    1            A        3
2    2            A        8
3    4            A        5
4    1            B        6
5    3            B        2
6    4            B        9
7    2           C        7
8    3           C        4
9    4           C        1

Vinkki

Jos haluat oppia merkkijonojen käsittelystä R-kielellä, tutustu R substring() - ja R paste() -oppaaseen digitaalisessa oppaassamme.

Suositut artikkelit

Verkkotunnusten kauppa: kuinka myydä verkkotunnus

Verkkotunnusten ostaminen ja myyminen voi olla tuottoisaa – jos osaa toimia oikein.…

Lue lisää

Kuinka jäsentää data-kehyksiä uudelleen R:n melt-toi­min­nol­la

Mihin R:n melt()-funktiota käytetään?

Mikä on R:n melt()-funktion syntaksi?

Kuinka poistaa NA-merkinnät R:n melt()-ko­men­nol­la

Kuinka jäsentää data-kehyksiä uudelleen R:n melt-toiminnolla

Kuinka poistaa NA-merkinnät R:n melt()-komennolla