Duomenų mažinimo metodai gali būti naudojami siekiant sumažinti fiziškai saugomų duomenų kiekį. Tai leidžia sutaupyti saugojimo vietos ir išlaidų.

Ką reiškia duomenų redukcija?

Terminas „duomenų mažinimas“ apima įvairius metodus, taikomus talpos op­ti­mi­za­vi­mui. Šių metodų tikslas – sumažinti saugomų duomenų kiekį. Kadangi duomenų apimtys visame pasaulyje didėja, duomenų mažinimas yra būtinas siekiant už­tik­rin­ti išteklių ir sąnaudų efek­ty­vu­mą saugant duomenis.

Duomenų kiekį galima sumažinti taikant duomenų su­spau­di­mą ir de­du­pli­ka­ci­ją. Nors su­spau­di­mas be nuostolių naudoja failo vidinius pa­si­kar­to­ji­mus duomenims suspausti, de­du­pli­ka­ci­jos al­go­rit­mai lygina duomenis skir­tin­guo­se failuose, kad išvengtų pa­si­kar­to­ji­mų.

Kas yra duomenų de­du­pli­ka­ci­ja?

Duomenų de­du­pli­ka­ci­ja – tai duomenų mažinimo procesas, kurio esmė yra užkirsti kelią duomenų dub­lia­vi­mui­si saugojimo sistemoje. Ji gali būti įgy­ven­di­na­ma tiek saugojimo vietoje, tiek duomenų šaltinyje. Tam nau­do­ja­mas de­du­pli­ka­ci­jos variklis, kuris, pa­si­telk­da­mas spe­cia­lius al­go­rit­mus, nustato ir pašalina dub­liuo­ja­mus failus ar duomenų blokus. Pag­rin­di­nė duomenų de­du­pli­ka­ci­jos taikymo sritis – duomenų at­sar­gi­nės kopijos.

Duomenų mažinimo naudojant de­du­pli­ka­ci­ją tikslas – į nuo­la­ti­nės atminties laikmeną įrašyti tik tiek in­for­ma­ci­jos, kiek reikia, kad būtų galima atkurti failą be praradimų. Kuo daugiau dub­liuo­ja­mų duomenų ištrinama, tuo mažesnis duomenų kiekis, kurį reikia saugoti ar perduoti.

Pa­vyz­džiui, dub­liuo­tus failus galima nustatyti failų lygmeniu naudojant „Git“ ar „Dropbox“. Tačiau veiks­min­ges­nis būdas – naudoti dub­lia­vi­mo pa­ša­li­ni­mo al­go­rit­mus, kurie veikia failų dalių lygmeniu. Tam failai pir­miau­sia su­skai­do­mi į duomenų blokus (frag­men­tus) ir jiems pri­ski­ria­mos unikalios kont­ro­li­nės sumos, arba maišos reikšmės. Stebėjimo duomenų bazė, kurioje saugomos visos kont­ro­li­nės sumos, veikia kaip centrinis prie­žiū­ros me­cha­niz­mas.

Blokų pagrindu vei­kian­čius duomenų de­du­pli­ka­vi­mo metodus galima su­skirs­ty­ti į dvi rūšis:

  • Fiksuotas bloko ilgis: failai su­skirs­to­mi į vienodo ilgio sekcijas, at­si­žvel­giant į failo arba RAID sistemos klasterių dydį (paprastai 4 KB)
  • Kintamas blokų ilgis: al­go­rit­mas suskaido duomenis į skir­tin­gus blokus, kurių ilgis priklauso nuo ap­do­ro­ja­mų duomenų tipo.

Blokų su­skirs­ty­mo būdas turi didžiulę įtaką duomenų de­du­pli­ka­vi­mo efek­ty­vu­mui. Tai ypač pastebima, kai de­du­pli­kuo­ti failai vėliau keičiami. Naudojant fiksuoto dydžio blokus, jei failas pa­kei­čia­mas, visi vėlesni segmentai taip pat de­du­pli­ka­vi­mo algoritmo pri­ski­ria­mi prie naujų dėl pa­si­kei­tu­sių blokų ribų. Tai padidina skai­čia­vi­mo apkrovą ir pra­lai­du­mo naudojimą.

Jei, kita vertus, al­go­rit­mas naudoja kintamas blokų ribas, atskiro duomenų bloko pa­kei­ti­mai neturi jokio poveikio kitiems seg­men­tams. Vietoj to, pakeistas duomenų blokas tiesiog iš­ple­čia­mas ir iš­sau­go­mas su nau­jai­siais baitais. Tai sumažina tinklo apkrovą. Tačiau tokia failų keitimo lanks­tu­mas rei­ka­lau­ja daugiau skai­čia­vi­mo resursų, nes al­go­rit­mas pir­miau­sia turi iš­si­aiš­kin­ti, kaip yra su­skirs­ty­ti frag­men­tai.

Kas yra duomenų su­spau­di­mas?

Duomenų su­spau­di­mo metu failai kon­ver­tuo­ja­mi į kitą formatą, kuris yra efek­ty­ves­nis už originalų. Tokio tipo duomenų su­spau­di­mo tikslas – sumažinti rei­ka­lin­gą atminties vietą bei perdavimo laiką. Tokį kodavimo efek­ty­vu­mą galima pasiekti dviem skir­tin­gais būdais:

  • Re­dun­dan­ci­jos su­spau­di­mas: Naudojant ne­su­spau­džia­mą duomenų su­spau­di­mą, duomenys po su­spau­di­mo gali būti tiksliai išpakuoti. Todėl įvesties ir išvesties duomenys yra identiški. Šis su­spau­di­mo būdas įmanomas tik tuomet, kai failas turi per­tek­li­nės in­for­ma­ci­jos.
  • Ne­rei­ka­lin­gos in­for­ma­ci­jos su­spau­di­mas: Naudojant su­spau­di­mą su nuo­sto­liais, ne­rei­ka­lin­ga in­for­ma­ci­ja yra ištrinama, kad failas būtų su­spaus­tas. Tai visada lydi duomenų pra­ra­di­mas. Po ne­rei­ka­lin­gos in­for­ma­ci­jos su­spau­di­mo ori­gi­na­lūs duomenys atkurti tik apy­tik­riai. Duomenų kla­si­fi­ka­vi­mas kaip ne­rei­ka­lin­gų yra di­s­kre­ci­nis. Pa­vyz­džiui, garso su­spau­di­me per MP3 pa­ša­li­na­mi tie dažnių modeliai, kurie, kaip manoma, žmogaus ausiai yra vos girdimi arba visai negirdimi.

Nors su­spau­di­mas saugojimo sistemos lygmeniu iš esmės yra be nuostolių, duomenų pra­ra­di­mas kitose srityse, pa­vyz­džiui, per­duo­dant vaizdus, vaizdo įrašus ir garso įrašus, są­mo­nin­gai to­le­ruo­ja­mas siekiant sumažinti failų dydį.

Tiek failo kodavimas, tiek deko­da­vi­mas rei­ka­lau­ja skai­čia­vi­mo resursų. Tai pir­miau­sia priklauso nuo naudojamo su­spau­di­mo metodo. Vienos tech­no­lo­gi­jos siekia kuo kom­pak­tiš­kiau pateikti pradinius duomenis, o kitos – su­trum­pin­ti rei­ka­lin­gą skai­čia­vi­mo laiką. Todėl su­spau­di­mo metodo pa­si­rin­ki­mas visada priklauso nuo projekto ar užduoties, kuriai jis taikomas, rei­ka­la­vi­mų.

Koks duomenų re­duk­ci­jos metodas yra geresnis?

Siekdamos įgy­ven­din­ti at­sar­gi­nių kopijų kūrimo pro­ce­dū­ras arba op­ti­mi­zuo­ti saugojimą stan­dar­ti­nė­se failų sistemose, įmonės paprastai pa­si­tel­kia duomenų de­du­pli­ka­ci­ją. Tai dau­giau­sia lemia tai, kad de­du­pli­ka­ci­jos sistemos yra ypač veiks­min­gos, kai reikia saugoti iden­tiš­kus failus.

Kita vertus, duomenų su­spau­di­mo metodai paprastai yra susiję su di­des­nė­mis skai­čia­vi­mo są­nau­do­mis, todėl jiems rei­ka­lin­gos su­dė­tin­ges­nės plat­for­mos. Efek­ty­viau­siai galima naudoti saugojimo sistemas, kuriose derinami abu duomenų mažinimo metodai. Pir­miau­sia, naudojant de­du­pli­ka­ci­ją iš saugotinų failų pa­ša­li­na­mi pa­si­kar­to­ji­mai, o tada likę duomenys su­spau­džia­mi.

Go to Main Menu