Metode zmanj­še­va­nja količine podatkov se lahko uporabijo za zmanj­ša­nje količine fizično shra­nje­nih podatkov. S tem se prihrani prostor za shra­nje­va­nje in zmanjšajo stroški.

Kaj pomeni zmanj­ša­nje količine podatkov?

Izraz »zmanj­ša­nje količine podatkov« zajema različne metode, ki se upo­ra­blja­jo za op­ti­mi­za­ci­jo zmo­glji­vo­sti. Cilj teh metod je zmanjšati količino shra­nje­nih podatkov. Glede na to, da se količina podatkov po vsem svetu nenehno povečuje, je zmanj­ša­nje količine podatkov nujno za za­go­ta­vlja­nje učin­ko­vi­te rabe virov in stro­škov­ne učin­ko­vi­to­sti pri shra­nje­va­nju podatkov.

Zmanj­ša­nje količine podatkov je mogoče doseči s sti­ska­njem in od­stra­nje­va­njem pod­vo­je­nih podatkov. Medtem ko stiskanje brez izgube podatkov za stiskanje podatkov izkorišča pod­va­ja­nja znotraj posamezne datoteke, algoritmi za od­stra­nje­va­nje pod­vo­je­nih podatkov pri­mer­ja­jo podatke med da­to­te­ka­mi, da se izognejo po­na­vlja­nju.

Kaj je de­du­pli­ka­ci­ja?

De­du­pli­ka­ci­ja je postopek zmanj­še­va­nja količine podatkov, ki v osnovi temelji na pre­pre­če­va­nju pod­va­ja­nja podatkov v sistemu za shra­nje­va­nje. Izvaja se lahko bodisi na ciljnem mestu shra­nje­va­nja bodisi na viru podatkov. Pri tem se uporablja de­du­pli­ka­cij­ski mehanizem, ki s pomočjo posebnih al­go­rit­mov prepozna in odstrani podvojene datoteke ali po­dat­kov­ne bloke. Glavno področje uporabe de­du­pli­ka­ci­je je varnostno kopiranje podatkov.

Cilj zmanj­še­va­nja količine podatkov z de­du­pli­ka­ci­jo je, da se na trajne nosilce podatkov zapiše le toliko in­for­ma­cij, kolikor je potrebno za brez­i­z­gub­no obnovitev datoteke. Več pod­vo­je­nih podatkov se izbriše, manjša je količina podatkov, ki jo je treba shraniti ali prenesti.

Pre­po­zna­va­nje pod­vo­je­nih datotek je mogoče na ravni datotek, na primer z uporabo Git ali Dropbox. Učin­ko­vi­tej­ša metoda pa je uporaba al­go­rit­mov za od­stra­nje­va­nje pod­vo­je­nih datotek, ki delujejo na ravni delov datotek. Pri tem se datoteke najprej razdelijo na po­dat­kov­ne bloke (kosce) in jim dodelijo edin­stve­ne kontrolne vsote ali hash vrednosti. Baza podatkov za sledenje, ki vsebuje vse kontrolne vsote, deluje kot osrednja nadzorna enota.

Metode de­du­pli­ka­ci­je na podlagi blokov lahko razdelimo na dve različici:

  • Fiksna dolžina blokov: Datoteke so raz­de­lje­ne na dele enake dolžine, ki temelji na velikosti klastra datoteke ali RAID-sistema (običajno 4 KB)
  • Spre­men­lji­va dolžina bloka: Algoritem raz­de­lju­je podatke v različne bloke, katerih dolžina se spreminja glede na vrsto podatkov, ki jih je treba obdelati.

Način raz­de­li­tve blokov ima ogromen vpliv na učin­ko­vi­tost de­du­pli­ka­ci­je podatkov. To je še posebej opazno, kadar se de­du­pli­ci­ra­ne datoteke naknadno spre­me­ni­jo. Pri uporabi fiksnih velikosti blokov algoritam za de­du­pli­ka­ci­jo zaradi premika mej blokov ob spremembi datoteke vse naslednje segmente prav tako razvrsti kot nove. To poveča računski napor in porabo pasovne širine.

Če pa algoritem uporablja spre­men­lji­ve meje blokov, spremembe po­sa­me­zne­ga po­dat­kov­ne­ga bloka ne vplivajo na naslednje segmente. Namesto tega se spre­me­nje­ni po­dat­kov­ni blok preprosto podaljša in shrani z novimi bajti. To raz­bre­me­ni omrežje. Vendar pa je pri­la­go­dlji­vost sprememb datotek računsko zah­tev­nej­ša, saj mora algoritem najprej ugotoviti, kako so deli raz­de­lje­ni.

Kaj je stiskanje podatkov?

Pri stiskanju podatkov se datoteke pre­tvo­ri­jo v al­ter­na­tiv­ni format, ki je učin­ko­vi­tej­ši od izvirnika. Cilj te vrste zmanj­še­va­nja podatkov je zmanjšati potrebni po­mnil­ni­ški prostor ter čas prenosa. Takšen kodirni dobiček je mogoče doseči z dvema raz­lič­ni­ma pri­sto­po­ma:

  • Stiskanje z izgubo: Pri stiskanju podatkov brez izgube je mogoče podatke po stiskanju natančno raz­pa­ki­ra­ti. Vhodni in izhodni podatki so zato identični. Ta vrsta stiskanja je mogoča le, če datoteka vsebuje odvečne in­for­ma­ci­je.
  • Stiskanje zaradi ne­po­memb­no­sti: Pri stiskanju z izgubo se za stiskanje datoteke izbrišejo ne­po­memb­ne in­for­ma­ci­je. To vedno spremlja izguba podatkov. Po stiskanju zaradi ne­po­memb­no­sti je obnovitev izvirnih podatkov le približna. Postopek raz­vr­šča­nja podatkov kot ne­po­memb­nih je dis­kre­cij­ski. Pri stiskanju zvoka prek MP3 se na primer od­stra­ni­jo fre­kvenč­ni vzorci, za katere se domneva, da jih človek komajda ali sploh ne sliši.

Čeprav je stiskanje na ravni shra­nje­val­ne­ga sistema v bistvu brez izgube podatkov, se izgube podatkov na drugih področjih, kot so prenos slik, videov in avdio datotek, namerno dopuščajo, da se zmanjša velikost datotek.

Tako kodiranje kot de­ko­di­ra­nje datoteke zahtevata računski napor. To je v prvi vrsti odvisno od upo­ra­blje­ne metode stiskanja. Medtem ko nekatere tehnike stremijo k čim bolj kom­pak­tne­mu prikazu izvirnih podatkov, se druge osre­do­to­ča­jo na skraj­ša­nje po­treb­ne­ga časa za izračun. Izbira metode stiskanja je zato vedno odvisna od zahtev projekta ali naloge, za katero se uporablja.

Katera metoda zmanj­še­va­nja količine podatkov je boljša?

Za izvajanje postopkov var­no­stne­ga kopiranja ali op­ti­mi­za­ci­jo prostora za shra­nje­va­nje v stan­dar­dnih da­to­teč­nih sistemih se podjetja običajno zanašajo na de­du­pli­ka­ci­jo. To je predvsem posledica dejstva, da so sistemi za de­du­pli­ka­ci­jo izjemno učin­ko­vi­ti, kadar je treba shraniti identične datoteke.

Metode stiskanja podatkov pa so na splošno povezane z višjimi ra­ču­nal­ni­ški­mi stroški in zato zahtevajo bolj zapletene platforme. Najbolj učin­ko­vi­to se lahko upo­ra­blja­jo sistemi za shra­nje­va­nje, ki zdru­žu­je­jo obe metodi zmanj­še­va­nja količine podatkov. Najprej se s pomočjo de­du­pli­ka­ci­je iz datotek, ki jih je treba shraniti, od­stra­ni­jo podvojeni podatki, nato pa se preostali podatki stisnejo.

Go to Main Menu