Hvad er datareduktion?
Der kan anvendes datareduktionsmetoder til at mindske den mængde data, der fysisk lagres. Dette sparer lagerplads og omkostninger.
Hvad betyder datareduktion?
Begrebet datareduktion dækker over forskellige metoder, der anvendes til at optimere kapaciteten. Disse metoder har til formål at reducere den mængde data, der lagres. I takt med at datamængderne stiger på verdensplan, er datareduktion nødvendig for at sikre ressource- og omkostningseffektivitet ved lagring af data.
Datareduktion kan gennemføres ved hjælp af datakomprimering og deduplikering. Mens tabsfri komprimering udnytter redundans i en fil til at komprimere data, sammenligner deduplikeringsalgoritmer data på tværs af filer for at undgå gentagelser.
Hvad er deduplikering?
Deduplikering er en proces til datareduktion, der i det væsentlige går ud på at forhindre dataredundans i lagringssystemet. Den kan implementeres enten på lagringsstedet eller ved datakilden. Der anvendes en deduplikeringsmotor, som bruger særlige algoritmer til at identificere og fjerne redundante filer eller datablokke. Det primære anvendelsesområde for deduplikering er sikkerhedskopiering af data.
Formålet med datareduktion ved hjælp af deduplikering er at skrive kun så mange oplysninger på ikke-flygtige lagringsmedier, som er nødvendigt for at kunne gendanne en fil uden tab. Jo flere dubletter der slettes, desto mindre bliver den datamængde, der skal lagres eller overføres.
Identificering af dubletter kan f.eks. foretages på filniveau ved hjælp af Git eller Dropbox. En mere effektiv metode er dog at anvende deduplikationsalgoritmer, som arbejder på underfilniveau. Her opdeles filerne først i datablokke (chunks) og tildeles unikke kontrolsummer, også kaldet hashværdier. Sporingsdatabasen, som indeholder alle kontrolsummer, fungerer som en central overvågningsenhed.
De blokbaserede deduplikationsmetoder kan opdeles i to varianter:
- Fast bloklængde: Filerne opdeles i sektioner af nøjagtig samme længde baseret på filens eller RAID-systemets klyngestørrelse (typisk 4 KB)
- Variabel bloklængde: Algoritmen opdeler dataene i forskellige blokke, hvis længde varierer afhængigt af den type data, der skal behandles.
Den måde, blokke opdeles på, har stor indflydelse på effektiviteten af datadeduplikeringen. Dette mærkes især, når deduplikerede filer senere ændres. Ved brug af faste blokstørrelser vil en ændring af en fil medføre, at alle efterfølgende segmenter også klassificeres som nye af deduplikationsalgoritmen på grund af forskydningen i blokgrænserne. Dette øger beregningsbyrden og forbruget af båndbredde.
Hvis en algoritme derimod anvender variable blokgrænser, har ændringer af en enkelt datablok ingen indflydelse på de efterfølgende segmenter. I stedet udvides den ændrede datablok blot og gemmes sammen med de nye bytes. Dette aflaster netværket. Fleksibiliteten i forbindelse med filændringerne er dog mere beregningskrævende, da algoritmen først skal finde ud af, hvordan blokkene er opdelt.
Hvad er datakomprimering?
Ved datakomprimering konverteres filer til et alternativt format, der er mere effektivt end det oprindelige. Formålet med denne form for datareduktion er at mindske både den nødvendige lagerplads og overførselstiden. En sådan kodningsgevinst kan opnås ved hjælp af to forskellige metoder:
- Redundanskomprimering: Ved tabsfri datakomprimering kan dataene dekomprimeres nøjagtigt efter komprimeringen. Indgangs- og udgangsdataene er derfor identiske. Denne form for komprimering er kun mulig, når en fil indeholder overflødig information.
- Komprimering af irrelevante data: Ved komprimering med tab slettes irrelevante oplysninger for at komprimere en fil. Dette medfører altid et tab af data. Efter en komprimering af irrelevante data kan de oprindelige data kun gendannes omtrentligt. Processen til klassificering af data som irrelevante er skønsmæssig. Ved en lydkomprimering via MP3 fjernes for eksempel de frekvensmønstre, som antages at være næsten eller slet ikke hørbare for mennesker.
Selvom komprimering på lagringssystemniveau i det væsentlige er tabsfri, accepteres datatab på andre områder, såsom overførsel af billeder, videoer og lydfiler, bevidst for at reducere filstørrelsen.
Både kodning og afkodning af en fil kræver regnekraft. Dette afhænger primært af den anvendte komprimeringsmetode. Mens nogle teknikker sigter mod den mest kompakte gengivelse af de oprindelige data, fokuserer andre på at reducere den nødvendige beregningstid. Valget af komprimeringsmetode afhænger derfor altid af kravene i det projekt eller den opgave, den skal bruges til.
Hvilken metode til datareduktion er bedst?
For at gennemføre sikkerhedskopieringsprocedurer eller optimere lagerpladsen i standardfilsystemer benytter virksomheder sig generelt af deduplikering. Dette skyldes hovedsageligt, at deduplikationssystemer er yderst effektive, når identiske filer skal lagres.
Datakomprimeringsmetoder er derimod generelt forbundet med højere beregningsomkostninger og kræver derfor mere komplekse platforme. Lagringssystemer, der kombinerer begge metoder til datareduktion, kan udnyttes mest effektivt. Først fjernes redundans fra de filer, der skal lagres, ved hjælp af deduplikering, og derefter komprimeres de resterende data.