Mis on andmete vähendamine?
Andmete vähendamise meetodeid saab kasutada füüsiliselt salvestatud andmete mahu vähendamiseks. See aitab säästa salvestusruumi ja kulusid.
Mida tähendab andmete vähendamine?
Mõiste „andmete mahu vähendamine“ hõlmab mitmesuguseid meetodeid, mida kasutatakse mahu optimeerimiseks. Nende meetodite eesmärk on vähendada salvestatavate andmete mahtu. Kuna andmemaht kasvab kogu maailmas, on andmete mahu vähendamine vajalik, et tagada andmete salvestamisel ressursside ja kulude tõhus kasutamine.
Andmete mahtu saab vähendada andmete pakkimise ja dubleerimise vältimise abil. Kui kadudeta pakkimine kasutab andmete pakkimiseks failisisesid kordusi, siis dubleerimise vältimise algoritmid võrdlevad andmeid eri failide vahel, et vältida kordusi.
Mis on dubleerimise vältimine?
Andmete dubleerimise vältimine on andmemahu vähendamise protsess, mille põhieesmärk on vältida andmete dubleerimist salvestussüsteemis. Seda saab rakendada kas salvestuskohtades või andmeallikates. Selleks kasutatakse dubleerimise vältimise mootorit, mis erialgoritmide abil tuvastab ja eemaldab dubleeritud failid või andmeplokid. Andmete dubleerimise vältimise peamine rakendusvaldkond on andmete varundamine.
Andmete mahu vähendamise eesmärk dubleerimise eemaldamise abil on kirjutada püsivale andmekandjale vaid niipalju teavet, kui on vaja faili kadudeta taastamiseks. Mida rohkem dubleeritud andmeid kustutatakse, seda väiksem on salvestatava või edastatava andmemaht.
Duplikaatide tuvastamine on võimalik näiteks Git’i või Dropboxi abil failitasandil. Tõhusam meetod on aga dubleerimise kõrvaldamise algoritmide kasutamine, mis toimivad faili osade tasandil. Selleks jagatakse failid esmalt andmeplokkideks (tükkideks) ja neile omistatakse unikaalsed kontrollsummad ehk hash-väärtused. Jälgimisandmebaas, mis sisaldab kõiki kontrollsummasid, toimib keskse järelevalveüksusena.
Plokipõhised dubleerimise vältimise meetodid võib jagada kaheks variandiks:
- Fikseeritud ploki pikkus: failid jagatakse täpselt ühepikkusteks osadeks vastavalt faili või RAID-süsteemi klastri suurusele (tavaliselt 4 KB)
- Muutuv ploki pikkus: algoritm jagab andmed erinevatesse plokkidesse, mille pikkus varieerub vastavalt töödeldavate andmete tüübile.
Blokkide jaotamisviis mõjutab oluliselt andmete dubleerimise tõhusust. See on eriti märgatav juhul, kui dubleeritud faile hiljem muudetakse. Kui kasutatakse kindla suurusega blokke ja faili muudetakse, klassifitseerib dubleerimisalgoritm blokipiiride nihkumise tõttu ka kõik järgnevad segmendid uute hulka. See suurendab arvutuskoormust ja ribalaiuse kasutust.
Kui aga algoritm kasutab muutuvaid plokipiire, ei mõjuta üksiku andmeploki muudatused järgmisi segmente. Selle asemel lihtsalt laiendatakse muudetud andmeplokki ja salvestatakse see koos uute baitidega. See vähendab võrgu koormust. Failimuudatuste paindlikkus nõuab aga rohkem arvutusvõimsust, kuna algoritm peab esmalt välja selgitama, kuidas tükid on jagatud.
Mis on andmete pakkimine?
Andmete pakkimisel teisendatakse failid alternatiivseks formaadiks, mis on tõhusam kui originaal. Sellise andmete mahu vähendamise eesmärk on vähendada nii vajalikku mäluruumi kui ka edastusaega. Sellist kodeerimisvõitu on võimalik saavutada kahe erineva lähenemisviisi abil:
- Redundantsuskompressioon: Kaotuseta andmete kompressiooni puhul on võimalik andmeid pärast kompresseerimist täpselt taastada. Seega on sisend- ja väljundandmed identsed. Selline kompressioon on võimalik ainult juhul, kui fail sisaldab redundantset teavet.
- Ebaolulise teabe kompressioon: Kaotusega kompressiooni puhul kustutatakse faili kompresseerimiseks ebaoluline teave. Sellega kaasneb alati andmete kadu. Pärast ebaolulise teabe kompressiooni on algandmete taastamine vaid ligikaudne. Andmete ebaoluliseks klassifitseerimise protsess on suvaline. Näiteks MP3-vormingus helifailide kompresseerimisel eemaldatakse need sagedusmustrid, mida inimene eeldatavasti vaevu või üldse ei kuule.
Kuigi salvestussüsteemi tasandil toimuv pakkimine on sisuliselt kadudeta, aktsepteeritakse andmete kadu muudes valdkondades, nagu piltide, videote ja helifailide edastamisel, teadlikult, et vähendada failide mahtu.
Nii faili kodeerimine kui ka dekodeerimine nõuavad arvutusvõimsust. See sõltub peamiselt kasutatavast pakkimismeetodist. Kui mõned meetodid püüavad originaalandmeid võimalikult kompaktseks muuta, siis teised keskenduvad vajaliku arvutusaega lühendamisele. Seetõttu sõltub pakkimismeetodi valik alati selle projekti või ülesande nõuetest, mille jaoks seda kasutatakse.
Milline andmete vähendamise meetod on parem?
Varundamisprotseduuride rakendamiseks või salvestusruumi optimeerimiseks tavalistes failisüsteemides kasutavad ettevõtted üldjuhul dubleerimise vältimist. See tuleneb peamiselt asjaolust, et dubleerimise vältimise süsteemid on äärmiselt tõhusad, kui tuleb salvestada identsed failid.
Andmete pakkimismeetodid on aga üldjuhul seotud suuremate arvutuskuludega ja nõuavad seetõttu keerukamaid platvorme. Kõige tõhusamalt saab kasutada salvestussüsteeme, mis ü hendavad endas mõlemat andmete vähendamise meetodit. Esmalt eemaldatakse salvestatavatest failidest dubleeritud andmed dubleerimise eemaldamise abil ning seejärel pakitakse allesjäänud andmed.