Kas yra duomenų redukcija?
Duomenų mažinimo metodai gali būti naudojami siekiant sumažinti fiziškai saugomų duomenų kiekį. Tai leidžia sutaupyti saugojimo vietos ir išlaidų.
Ką reiškia duomenų redukcija?
Terminas „duomenų mažinimas“ apima įvairius metodus, taikomus talpos optimizavimui. Šių metodų tikslas – sumažinti saugomų duomenų kiekį. Kadangi duomenų apimtys visame pasaulyje didėja, duomenų mažinimas yra būtinas siekiant užtikrinti išteklių ir sąnaudų efektyvumą saugant duomenis.
Duomenų kiekį galima sumažinti taikant duomenų suspaudimą ir deduplikaciją. Nors suspaudimas be nuostolių naudoja failo vidinius pasikartojimus duomenims suspausti, deduplikacijos algoritmai lygina duomenis skirtinguose failuose, kad išvengtų pasikartojimų.
Kas yra duomenų deduplikacija?
Duomenų deduplikacija – tai duomenų mažinimo procesas, kurio esmė yra užkirsti kelią duomenų dubliavimuisi saugojimo sistemoje. Ji gali būti įgyvendinama tiek saugojimo vietoje, tiek duomenų šaltinyje. Tam naudojamas deduplikacijos variklis, kuris, pasitelkdamas specialius algoritmus, nustato ir pašalina dubliuojamus failus ar duomenų blokus. Pagrindinė duomenų deduplikacijos taikymo sritis – duomenų atsarginės kopijos.
Duomenų mažinimo naudojant deduplikaciją tikslas – į nuolatinės atminties laikmeną įrašyti tik tiek informacijos, kiek reikia, kad būtų galima atkurti failą be praradimų. Kuo daugiau dubliuojamų duomenų ištrinama, tuo mažesnis duomenų kiekis, kurį reikia saugoti ar perduoti.
Pavyzdžiui, dubliuotus failus galima nustatyti failų lygmeniu naudojant „Git“ ar „Dropbox“. Tačiau veiksmingesnis būdas – naudoti dubliavimo pašalinimo algoritmus, kurie veikia failų dalių lygmeniu. Tam failai pirmiausia suskaidomi į duomenų blokus (fragmentus) ir jiems priskiriamos unikalios kontrolinės sumos, arba maišos reikšmės. Stebėjimo duomenų bazė, kurioje saugomos visos kontrolinės sumos, veikia kaip centrinis priežiūros mechanizmas.
Blokų pagrindu veikiančius duomenų deduplikavimo metodus galima suskirstyti į dvi rūšis:
- Fiksuotas bloko ilgis: failai suskirstomi į vienodo ilgio sekcijas, atsižvelgiant į failo arba RAID sistemos klasterių dydį (paprastai 4 KB)
- Kintamas blokų ilgis: algoritmas suskaido duomenis į skirtingus blokus, kurių ilgis priklauso nuo apdorojamų duomenų tipo.
Blokų suskirstymo būdas turi didžiulę įtaką duomenų deduplikavimo efektyvumui. Tai ypač pastebima, kai deduplikuoti failai vėliau keičiami. Naudojant fiksuoto dydžio blokus, jei failas pakeičiamas, visi vėlesni segmentai taip pat deduplikavimo algoritmo priskiriami prie naujų dėl pasikeitusių blokų ribų. Tai padidina skaičiavimo apkrovą ir pralaidumo naudojimą.
Jei, kita vertus, algoritmas naudoja kintamas blokų ribas, atskiro duomenų bloko pakeitimai neturi jokio poveikio kitiems segmentams. Vietoj to, pakeistas duomenų blokas tiesiog išplečiamas ir išsaugomas su naujaisiais baitais. Tai sumažina tinklo apkrovą. Tačiau tokia failų keitimo lankstumas reikalauja daugiau skaičiavimo resursų, nes algoritmas pirmiausia turi išsiaiškinti, kaip yra suskirstyti fragmentai.
Kas yra duomenų suspaudimas?
Duomenų suspaudimo metu failai konvertuojami į kitą formatą, kuris yra efektyvesnis už originalų. Tokio tipo duomenų suspaudimo tikslas – sumažinti reikalingą atminties vietą bei perdavimo laiką. Tokį kodavimo efektyvumą galima pasiekti dviem skirtingais būdais:
- Redundancijos suspaudimas: Naudojant nesuspaudžiamą duomenų suspaudimą, duomenys po suspaudimo gali būti tiksliai išpakuoti. Todėl įvesties ir išvesties duomenys yra identiški. Šis suspaudimo būdas įmanomas tik tuomet, kai failas turi perteklinės informacijos.
- Nereikalingos informacijos suspaudimas: Naudojant suspaudimą su nuostoliais, nereikalinga informacija yra ištrinama, kad failas būtų suspaustas. Tai visada lydi duomenų praradimas. Po nereikalingos informacijos suspaudimo originalūs duomenys atkurti tik apytikriai. Duomenų klasifikavimas kaip nereikalingų yra diskrecinis. Pavyzdžiui, garso suspaudime per MP3 pašalinami tie dažnių modeliai, kurie, kaip manoma, žmogaus ausiai yra vos girdimi arba visai negirdimi.
Nors suspaudimas saugojimo sistemos lygmeniu iš esmės yra be nuostolių, duomenų praradimas kitose srityse, pavyzdžiui, perduodant vaizdus, vaizdo įrašus ir garso įrašus, sąmoningai toleruojamas siekiant sumažinti failų dydį.
Tiek failo kodavimas, tiek dekodavimas reikalauja skaičiavimo resursų. Tai pirmiausia priklauso nuo naudojamo suspaudimo metodo. Vienos technologijos siekia kuo kompaktiškiau pateikti pradinius duomenis, o kitos – sutrumpinti reikalingą skaičiavimo laiką. Todėl suspaudimo metodo pasirinkimas visada priklauso nuo projekto ar užduoties, kuriai jis taikomas, reikalavimų.
Koks duomenų redukcijos metodas yra geresnis?
Siekdamos įgyvendinti atsarginių kopijų kūrimo procedūras arba optimizuoti saugojimą standartinėse failų sistemose, įmonės paprastai pasitelkia duomenų deduplikaciją. Tai daugiausia lemia tai, kad deduplikacijos sistemos yra ypač veiksmingos, kai reikia saugoti identiškus failus.
Kita vertus, duomenų suspaudimo metodai paprastai yra susiję su didesnėmis skaičiavimo sąnaudomis, todėl jiems reikalingos sudėtingesnės platformos. Efektyviausiai galima naudoti saugojimo sistemas, kuriose derinami abu duomenų mažinimo metodai. Pirmiausia, naudojant deduplikaciją iš saugotinų failų pašalinami pasikartojimai, o tada likę duomenys suspaudžiami.