Kaj je zmanjšanje količine podatkov?
Metode zmanjševanja količine podatkov se lahko uporabijo za zmanjšanje količine fizično shranjenih podatkov. S tem se prihrani prostor za shranjevanje in zmanjšajo stroški.
Kaj pomeni zmanjšanje količine podatkov?
Izraz »zmanjšanje količine podatkov« zajema različne metode, ki se uporabljajo za optimizacijo zmogljivosti. Cilj teh metod je zmanjšati količino shranjenih podatkov. Glede na to, da se količina podatkov po vsem svetu nenehno povečuje, je zmanjšanje količine podatkov nujno za zagotavljanje učinkovite rabe virov in stroškovne učinkovitosti pri shranjevanju podatkov.
Zmanjšanje količine podatkov je mogoče doseči s stiskanjem in odstranjevanjem podvojenih podatkov. Medtem ko stiskanje brez izgube podatkov za stiskanje podatkov izkorišča podvajanja znotraj posamezne datoteke, algoritmi za odstranjevanje podvojenih podatkov primerjajo podatke med datotekami, da se izognejo ponavljanju.
Kaj je deduplikacija?
Deduplikacija je postopek zmanjševanja količine podatkov, ki v osnovi temelji na preprečevanju podvajanja podatkov v sistemu za shranjevanje. Izvaja se lahko bodisi na ciljnem mestu shranjevanja bodisi na viru podatkov. Pri tem se uporablja deduplikacijski mehanizem, ki s pomočjo posebnih algoritmov prepozna in odstrani podvojene datoteke ali podatkovne bloke. Glavno področje uporabe deduplikacije je varnostno kopiranje podatkov.
Cilj zmanjševanja količine podatkov z deduplikacijo je, da se na trajne nosilce podatkov zapiše le toliko informacij, kolikor je potrebno za brezizgubno obnovitev datoteke. Več podvojenih podatkov se izbriše, manjša je količina podatkov, ki jo je treba shraniti ali prenesti.
Prepoznavanje podvojenih datotek je mogoče na ravni datotek, na primer z uporabo Git ali Dropbox. Učinkovitejša metoda pa je uporaba algoritmov za odstranjevanje podvojenih datotek, ki delujejo na ravni delov datotek. Pri tem se datoteke najprej razdelijo na podatkovne bloke (kosce) in jim dodelijo edinstvene kontrolne vsote ali hash vrednosti. Baza podatkov za sledenje, ki vsebuje vse kontrolne vsote, deluje kot osrednja nadzorna enota.
Metode deduplikacije na podlagi blokov lahko razdelimo na dve različici:
- Fiksna dolžina blokov: Datoteke so razdeljene na dele enake dolžine, ki temelji na velikosti klastra datoteke ali RAID-sistema (običajno 4 KB)
- Spremenljiva dolžina bloka: Algoritem razdeljuje podatke v različne bloke, katerih dolžina se spreminja glede na vrsto podatkov, ki jih je treba obdelati.
Način razdelitve blokov ima ogromen vpliv na učinkovitost deduplikacije podatkov. To je še posebej opazno, kadar se deduplicirane datoteke naknadno spremenijo. Pri uporabi fiksnih velikosti blokov algoritam za deduplikacijo zaradi premika mej blokov ob spremembi datoteke vse naslednje segmente prav tako razvrsti kot nove. To poveča računski napor in porabo pasovne širine.
Če pa algoritem uporablja spremenljive meje blokov, spremembe posameznega podatkovnega bloka ne vplivajo na naslednje segmente. Namesto tega se spremenjeni podatkovni blok preprosto podaljša in shrani z novimi bajti. To razbremeni omrežje. Vendar pa je prilagodljivost sprememb datotek računsko zahtevnejša, saj mora algoritem najprej ugotoviti, kako so deli razdeljeni.
Kaj je stiskanje podatkov?
Pri stiskanju podatkov se datoteke pretvorijo v alternativni format, ki je učinkovitejši od izvirnika. Cilj te vrste zmanjševanja podatkov je zmanjšati potrebni pomnilniški prostor ter čas prenosa. Takšen kodirni dobiček je mogoče doseči z dvema različnima pristopoma:
- Stiskanje z izgubo: Pri stiskanju podatkov brez izgube je mogoče podatke po stiskanju natančno razpakirati. Vhodni in izhodni podatki so zato identični. Ta vrsta stiskanja je mogoča le, če datoteka vsebuje odvečne informacije.
- Stiskanje zaradi nepomembnosti: Pri stiskanju z izgubo se za stiskanje datoteke izbrišejo nepomembne informacije. To vedno spremlja izguba podatkov. Po stiskanju zaradi nepomembnosti je obnovitev izvirnih podatkov le približna. Postopek razvrščanja podatkov kot nepomembnih je diskrecijski. Pri stiskanju zvoka prek MP3 se na primer odstranijo frekvenčni vzorci, za katere se domneva, da jih človek komajda ali sploh ne sliši.
Čeprav je stiskanje na ravni shranjevalnega sistema v bistvu brez izgube podatkov, se izgube podatkov na drugih področjih, kot so prenos slik, videov in avdio datotek, namerno dopuščajo, da se zmanjša velikost datotek.
Tako kodiranje kot dekodiranje datoteke zahtevata računski napor. To je v prvi vrsti odvisno od uporabljene metode stiskanja. Medtem ko nekatere tehnike stremijo k čim bolj kompaktnemu prikazu izvirnih podatkov, se druge osredotočajo na skrajšanje potrebnega časa za izračun. Izbira metode stiskanja je zato vedno odvisna od zahtev projekta ali naloge, za katero se uporablja.
Katera metoda zmanjševanja količine podatkov je boljša?
Za izvajanje postopkov varnostnega kopiranja ali optimizacijo prostora za shranjevanje v standardnih datotečnih sistemih se podjetja običajno zanašajo na deduplikacijo. To je predvsem posledica dejstva, da so sistemi za deduplikacijo izjemno učinkoviti, kadar je treba shraniti identične datoteke.
Metode stiskanja podatkov pa so na splošno povezane z višjimi računalniškimi stroški in zato zahtevajo bolj zapletene platforme. Najbolj učinkovito se lahko uporabljajo sistemi za shranjevanje, ki združujejo obe metodi zmanjševanja količine podatkov. Najprej se s pomočjo deduplikacije iz datotek, ki jih je treba shraniti, odstranijo podvojeni podatki, nato pa se preostali podatki stisnejo.