Andmete vä­hen­da­mise meetodeid saab kasutada füü­si­li­selt sal­ves­ta­tud andmete mahu vä­hen­da­miseks. See aitab säästa sal­ves­tus­ruumi ja kulusid.

Mida tähendab andmete vä­hen­da­mine?

Mõiste „andmete mahu vä­hen­da­mine“ hõlmab mit­me­su­gu­seid meetodeid, mida ka­su­ta­takse mahu op­ti­mee­ri­miseks. Nende meetodite eesmärk on vähendada sal­ves­ta­ta­vate andmete mahtu. Kuna andmemaht kasvab kogu maailmas, on andmete mahu vä­hen­da­mine vajalik, et tagada andmete sal­ves­ta­misel res­surs­side ja kulude tõhus ka­su­ta­mine.

Andmete mahtu saab vähendada andmete pakkimise ja dub­lee­ri­mise vältimise abil. Kui kadudeta pakkimine kasutab andmete pak­ki­miseks faili­si­se­sid kordusi, siis dub­lee­ri­mise vältimise algo­rit­mid võrdlevad andmeid eri failide vahel, et vältida kordusi.

Mis on dub­lee­ri­mise vältimine?

Andmete dub­lee­ri­mise vältimine on andmemahu vä­hen­da­mise protsess, mille põ­hi­ees­märk on vältida andmete dub­lee­ri­mist sal­ves­tus­süs­tee­mis. Seda saab rakendada kas sal­ves­tus­kohta­des või and­me­al­li­ka­tes. Selleks ka­su­ta­takse dub­lee­ri­mise vältimise mootorit, mis erialgo­ritmide abil tuvastab ja eemaldab dub­lee­ri­tud failid või and­me­plo­kid. Andmete dub­lee­ri­mise vältimise peamine ra­ken­dus­vald­kond on andmete va­run­da­mine.

Andmete mahu vä­hen­da­mise eesmärk dub­lee­ri­mise eemal­da­mise abil on kirjutada püsivale and­me­kand­jale vaid niipalju teavet, kui on vaja faili kadudeta taas­ta­miseks. Mida rohkem dub­lee­ri­tud andmeid kus­tu­ta­takse, seda väiksem on sal­ves­ta­tava või edas­ta­tava andmemaht.

Dup­li­kaa­tide tu­vas­ta­mine on võimalik näiteks Git’i või Dropboxi abil fai­li­ta­san­dil. Tõhusam meetod on aga dub­lee­ri­mise kõr­val­da­mise algo­ritmide ka­su­ta­mine, mis toimivad faili osade tasandil. Selleks jagatakse failid esmalt and­me­plok­ki­deks (tükkideks) ja neile omis­ta­takse uni­kaal­sed kont­roll­sum­mad ehk hash-väärtused. Jäl­gi­mis­and­me­baas, mis sisaldab kõiki kont­roll­sum­masid, toimib keskse jä­re­le­val­ve­ük­su­sena.

Plo­ki­põ­hi­sed dub­lee­ri­mise vältimise meetodid võib jagada kaheks va­rian­diks:

  • Fik­see­ri­tud ploki pikkus: failid jagatakse täpselt ühe­pik­kus­teks osadeks vastavalt faili või RAID-süsteemi klastri suurusele (ta­va­li­selt 4 KB)
  • Muutuv ploki pikkus: algoritm jagab andmed eri­ne­va­tesse plok­ki­desse, mille pikkus varieerub vastavalt töö­del­da­vate andmete tüübile.

Blokkide jao­ta­mis­viis mõjutab oluliselt andmete dub­lee­ri­mise tõhusust. See on eriti märgatav juhul, kui dub­lee­ri­tud faile hiljem muu­de­takse. Kui ka­su­ta­takse kindla suurusega blokke ja faili muu­de­takse, klas­si­fit­see­rib dub­lee­ri­mis­algo­ritm blo­ki­pii­ride nihkumise tõttu ka kõik järgnevad segmendid uute hulka. See suurendab ar­vu­tus­koor­must ja ri­ba­laiuse kasutust.

Kui aga algoritm kasutab muutuvaid plo­ki­piire, ei mõjuta üksiku and­me­ploki muu­da­tu­sed järgmisi segmente. Selle asemel lihtsalt laien­da­takse muudetud and­me­plokki ja sal­ves­ta­takse see koos uute baitidega. See vähendab võrgu koormust. Fai­li­muu­da­tuste paind­lik­kus nõuab aga rohkem ar­vu­tus­võim­sust, kuna algoritm peab esmalt välja selgitama, kuidas tükid on jagatud.

Mis on andmete pakkimine?

Andmete pak­ki­misel tei­sen­da­takse failid al­ter­na­tiiv­seks for­maa­diks, mis on tõhusam kui originaal. Sellise andmete mahu vä­hen­da­mise eesmärk on vähendada nii vajalikku mäluruumi kui ka edas­tus­aega. Sellist ko­dee­ri­mis­võitu on võimalik saavutada kahe erineva lä­he­ne­mis­viisi abil:

  • Re­dundant­sus­komp­res­sioon: Kaotuseta andmete komp­res­siooni puhul on võimalik andmeid pärast komp­res­see­ri­mist täpselt taastada. Seega on sisend- ja väl­jundand­med identsed. Selline komp­res­sioon on võimalik ainult juhul, kui fail sisaldab re­dundant­set teavet.
  • Eba­olu­lise teabe komp­res­sioon: Kaotusega komp­res­siooni puhul kus­tu­ta­takse faili komp­res­see­ri­miseks eba­olu­line teave. Sellega kaasneb alati andmete kadu. Pärast eba­olu­lise teabe komp­res­siooni on al­gand­mete taas­ta­mine vaid li­gi­kaudne. Andmete eba­olu­li­seks klas­si­fit­see­ri­mise protsess on suvaline. Näiteks MP3-vormingus he­li­fai­lide komp­res­see­ri­misel eemal­da­takse need sa­ge­dus­must­rid, mida inimene eel­da­ta­vasti vaevu või üldse ei kuule.

Kuigi sal­ves­tus­süs­teemi tasandil toimuv pakkimine on si­su­li­selt kadudeta, akt­sep­tee­ri­takse andmete kadu muudes vald­kon­da­des, nagu piltide, videote ja he­li­fai­lide edas­ta­misel, tead­li­kult, et vähendada failide mahtu.

Nii faili ko­dee­ri­mine kui ka de­ko­dee­ri­mine nõuavad ar­vu­tus­võim­sust. See sõltub peamiselt ka­su­ta­ta­vast pak­ki­mis­mee­to­dist. Kui mõned meetodid püüavad ori­gi­naaland­meid või­ma­li­kult kom­pakt­seks muuta, siis teised kes­ken­du­vad vajaliku ar­vu­tus­aega lü­hen­da­misele. Seetõttu sõltub pak­ki­mis­mee­todi valik alati selle projekti või ülesande nõuetest, mille jaoks seda ka­su­ta­takse.

Milline andmete vä­hen­da­mise meetod on parem?

Va­run­da­mis­prot­se­duu­ride ra­ken­da­miseks või sal­ves­tus­ruumi op­ti­mee­ri­miseks ta­valis­tes fai­li­süs­teemi­des kasutavad et­te­võt­ted üldjuhul dub­lee­ri­mise vältimist. See tuleneb peamiselt asjaolust, et dub­lee­ri­mise vältimise süsteemid on äärmiselt tõhusad, kui tuleb sal­ves­tada identsed failid.

Andmete pak­ki­mis­mee­to­did on aga üldjuhul seotud suuremate ar­vu­tus­ku­lu­dega ja nõuavad seetõttu kee­ru­ka­maid platvorme. Kõige tõ­hu­sa­malt saab kasutada sal­ves­tus­süs­teeme, mis ü hendavad endas mõlemat andmete vä­hen­da­mise meetodit. Esmalt eemal­da­takse sal­ves­ta­ta­va­test failidest dub­lee­ri­tud andmed dub­lee­ri­mise eemal­da­mise abil ning seejärel pakitakse al­les­jää­nud andmed.

Go to Main Menu