Der kan anvendes da­ta­re­duk­tions­me­to­der til at mindske den mængde data, der fysisk lagres. Dette sparer la­ger­plads og om­kost­nin­ger.

Hvad betyder da­ta­re­duk­tion?

Begrebet da­ta­re­duk­tion dækker over for­skel­li­ge metoder, der anvendes til at optimere ka­pa­ci­te­ten. Disse metoder har til formål at reducere den mængde data, der lagres. I takt med at da­ta­mæng­der­ne stiger på ver­dens­plan, er da­ta­re­duk­tion nødvendig for at sikre ressource- og om­kost­nings­ef­fek­ti­vi­tet ved lagring af data.

Da­ta­re­duk­tion kan gen­nem­fø­res ved hjælp af da­ta­kom­pri­me­ring og de­dup­li­ke­ring. Mens tabsfri kom­pri­me­ring udnytter redundans i en fil til at kom­pri­me­re data, sam­men­lig­ner de­dup­li­ke­rings­al­go­rit­mer data på tværs af filer for at undgå gen­ta­gel­ser.

Hvad er de­dup­li­ke­ring?

De­dup­li­ke­ring er en proces til da­ta­re­duk­tion, der i det væ­sent­li­ge går ud på at forhindre da­ta­re­dun­dans i lag­rings­sy­ste­met. Den kan im­ple­men­te­res enten på lag­rings­ste­det eller ved da­ta­kil­den. Der anvendes en de­dup­li­ke­rings­mo­tor, som bruger særlige al­go­rit­mer til at iden­ti­fi­ce­re og fjerne re­dun­dan­te filer eller da­ta­blok­ke. Det primære an­ven­del­ses­om­rå­de for de­dup­li­ke­ring er sik­ker­heds­ko­pi­e­ring af data.

Formålet med da­ta­re­duk­tion ved hjælp af de­dup­li­ke­ring er at skrive kun så mange op­lys­nin­ger på ikke-flygtige lag­rings­me­di­er, som er nød­ven­digt for at kunne gendanne en fil uden tab. Jo flere dubletter der slettes, desto mindre bliver den da­ta­mæng­de, der skal lagres eller overføres.

Iden­ti­fi­ce­ring af dubletter kan f.eks. foretages på filniveau ved hjælp af Git eller Dropbox. En mere effektiv metode er dog at anvende de­dup­li­ka­tions­al­go­rit­mer, som arbejder på un­der­fil­ni­veau. Her opdeles filerne først i da­ta­blok­ke (chunks) og tildeles unikke kon­trolsum­mer, også kaldet has­h­vær­di­er. Spor­ings­da­ta­ba­sen, som in­de­hol­der alle kon­trolsum­mer, fungerer som en central over­våg­nings­en­hed.

De blok­ba­se­re­de de­dup­li­ka­tions­me­to­der kan opdeles i to varianter:

  • Fast bloklæng­de: Filerne opdeles i sektioner af nøjagtig samme længde baseret på filens eller RAID-systemets klyn­ge­stør­rel­se (typisk 4 KB)
  • Variabel bloklæng­de: Al­go­rit­men opdeler dataene i for­skel­li­ge blokke, hvis længde varierer afhængigt af den type data, der skal behandles.

Den måde, blokke opdeles på, har stor ind­fly­del­se på ef­fek­ti­vi­te­ten af da­ta­de­dup­li­ke­rin­gen. Dette mærkes især, når de­dup­li­ke­re­de filer senere ændres. Ved brug af faste blok­stør­rel­ser vil en ændring af en fil medføre, at alle ef­ter­føl­gen­de segmenter også klas­si­fi­ce­res som nye af de­dup­li­ka­tions­al­go­rit­men på grund af for­skyd­nin­gen i blok­græn­ser­ne. Dette øger be­reg­nings­byr­den og forbruget af bånd­bred­de.

Hvis en algoritme derimod anvender variable blok­græn­ser, har ændringer af en enkelt datablok ingen ind­fly­del­se på de ef­ter­føl­gen­de segmenter. I stedet udvides den ændrede datablok blot og gemmes sammen med de nye bytes. Dette aflaster netværket. Flek­si­bi­li­te­ten i for­bin­del­se med filæn­drin­ger­ne er dog mere be­reg­nings­kræ­ven­de, da al­go­rit­men først skal finde ud af, hvordan blokkene er opdelt.

Hvad er da­ta­kom­pri­me­ring?

Ved da­ta­kom­pri­me­ring kon­ver­te­res filer til et al­ter­na­tivt format, der er mere effektivt end det op­rin­de­li­ge. Formålet med denne form for da­ta­re­duk­tion er at mindske både den nød­ven­di­ge la­ger­plads og over­før­sels­ti­den. En sådan kod­nings­ge­vinst kan opnås ved hjælp af to for­skel­li­ge metoder:

  • Re­dun­danskom­pri­me­ring: Ved tabsfri da­ta­kom­pri­me­ring kan dataene de­kom­pri­me­res nøjagtigt efter kom­pri­me­rin­gen. Indgangs- og ud­gangs­da­ta­e­ne er derfor identiske. Denne form for kom­pri­me­ring er kun mulig, når en fil in­de­hol­der over­flø­dig in­for­ma­tion.
  • Kom­pri­me­ring af ir­re­le­van­te data: Ved kom­pri­me­ring med tab slettes ir­re­le­van­te op­lys­nin­ger for at kom­pri­me­re en fil. Dette medfører altid et tab af data. Efter en kom­pri­me­ring af ir­re­le­van­te data kan de op­rin­de­li­ge data kun gendannes om­trent­ligt. Processen til klas­si­fi­ce­ring af data som ir­re­le­van­te er skøns­mæs­sig. Ved en lyd­kom­pri­me­ring via MP3 fjernes for eksempel de fre­kvens­møn­stre, som antages at være næsten eller slet ikke hørbare for mennesker.

Selvom kom­pri­me­ring på lag­rings­sy­stem­ni­veau i det væ­sent­li­ge er tabsfri, ac­cep­te­res datatab på andre områder, såsom over­før­sel af billeder, videoer og lydfiler, bevidst for at reducere fil­stør­rel­sen.

Både kodning og afkodning af en fil kræver reg­ne­kraft. Dette afhænger primært af den anvendte kom­pri­me­rings­me­to­de. Mens nogle teknikker sigter mod den mest kompakte gen­gi­vel­se af de op­rin­de­li­ge data, fokuserer andre på at reducere den nød­ven­di­ge be­reg­nings­tid. Valget af kom­pri­me­rings­me­to­de afhænger derfor altid af kravene i det projekt eller den opgave, den skal bruges til.

Hvilken metode til da­ta­re­duk­tion er bedst?

For at gen­nem­fø­re sik­ker­heds­ko­pi­e­rings­pro­ce­du­rer eller optimere la­ger­plad­sen i stan­dard­fil­sy­ste­mer benytter virk­som­he­der sig generelt af de­dup­li­ke­ring. Dette skyldes ho­ved­sa­ge­ligt, at de­dup­li­ka­tions­sy­ste­mer er yderst effektive, når identiske filer skal lagres.

Da­ta­kom­pri­me­rings­me­to­der er derimod generelt forbundet med højere be­reg­nings­om­kost­nin­ger og kræver derfor mere komplekse platforme. Lag­rings­sy­ste­mer, der kom­bi­ne­rer begge metoder til da­ta­re­duk­tion, kan udnyttes mest effektivt. Først fjernes redundans fra de filer, der skal lagres, ved hjælp af de­dup­li­ke­ring, og derefter kom­pri­me­res de re­ste­ren­de data.

Gå til ho­ved­me­nu­en