Met behulp van da­ta­re­duc­tie­me­tho­den kan de hoe­veel­heid fysiek op­ge­sla­gen data worden ver­min­derd. Dit bespaart op­slag­ruim­te en kosten.

Wat betekent da­ta­re­duc­tie?

De term da­ta­re­duc­tie omvat ver­schil­len­de methoden die worden gebruikt om de ca­pa­ci­teit te op­ti­ma­li­se­ren. Der­ge­lij­ke methoden zijn erop gericht om de hoe­veel­heid op­ge­sla­gen data te ver­min­de­ren. Nu de hoe­veel­heid data we­reld­wijd toeneemt, is da­ta­re­duc­tie nood­za­ke­lijk om te zorgen voor efficiënt gebruik van middelen en kosten bij het opslaan van data.

Ge­ge­vens­re­duc­tie kan worden uit­ge­voerd door middel van ge­ge­vens­com­pres­sie en de­du­pli­ca­tie. Terwijl ver­lies­vrije com­pres­sie ge­bruik­maakt van re­dun­dan­tie binnen een bestand om gegevens te com­pri­me­ren, ver­ge­lij­ken de­du­pli­ca­tie­al­go­rit­men gegevens tussen bestanden om herhaling te voorkomen.

Wat is de­du­pli­ca­tie?

De­du­pli­ca­tie is een proces van ge­ge­vens­re­duc­tie dat in wezen gebaseerd is op het voorkomen van ge­ge­vens­re­dun­dan­tie in het op­slag­sys­teem. Het kan worden ge­ïm­ple­men­teerd op het op­slag­doel of bij de ge­ge­vens­bron. Er wordt een de­du­pli­ca­tie-engine gebruikt, die speciale al­go­rit­men gebruikt om re­dun­dan­te bestanden of ge­ge­vens­blok­ken te iden­ti­fi­ce­ren en te ver­wij­de­ren. Het be­lang­rijk­ste toe­pas­sings­ge­bied voor de­du­pli­ca­tie is ge­ge­vens­back-up.

Het doel van ge­ge­vens­re­duc­tie door middel van de­du­pli­ca­tie is om alleen zoveel in­for­ma­tie op niet-vluchtige op­slag­me­dia te schrijven als nodig is om een bestand zonder verlies te kunnen re­con­stru­e­ren. Hoe meer du­pli­ca­ten worden ver­wij­derd, hoe kleiner het ge­ge­vens­vo­lu­me dat moet worden op­ge­sla­gen of over­ge­dra­gen.

Het iden­ti­fi­ce­ren van du­pli­ca­ten kan bij­voor­beeld op be­stands­ni­veau worden gedaan met Git of Dropbox. Een ef­fi­ci­ën­te­re methode is echter het gebruik van de­du­pli­ca­tie-al­go­rit­men, die op sub­be­stands­ni­veau werken. Hiervoor worden bestanden eerst opgedeeld in ge­ge­vens­blok­ken (chunks) en voorzien van unieke checksums of hash­waar­den. De trac­king­da­ta­ba­se, die elke checksum bevat, fungeert als een centrale toe­zicht­hou­den­de instantie.

De blok­ge­ba­seer­de de­du­pli­ca­tie­me­tho­den kunnen worden on­der­ver­deeld in twee varianten:

  • Vaste blok­leng­te: bestanden worden verdeeld in secties van exact dezelfde lengte op basis van de clus­ter­groot­te van het bestand of RAID-systeem (meestal 4 KB).
  • Variabele blok­leng­te: het algoritme verdeelt de gegevens in ver­schil­len­de blokken, waarvan de lengte varieert af­han­ke­lijk van het type gegevens dat moet worden verwerkt.

De manier waarop blokken worden verdeeld, heeft een enorme invloed op de ef­fi­ci­ën­tie van de ge­ge­vens­du­pli­ca­tie. Dit is vooral merkbaar wanneer ge­de­du­pli­ceer­de bestanden ver­vol­gens worden gewijzigd. Bij gebruik van vaste blok­groot­tes worden, als een bestand wordt gewijzigd, alle volgende segmenten ook als nieuw ge­clas­si­fi­ceerd door het de­du­pli­ca­tie­al­go­rit­me vanwege de ver­schui­ving in blok­gren­zen. Dit verhoogt de re­ken­in­span­ning en het gebruik van band­breed­te.

Als een algoritme daar­en­te­gen variabele blok­gren­zen gebruikt, hebben de wij­zi­gin­gen van een af­zon­der­lijk ge­ge­vens­blok geen invloed op de volgende segmenten. In plaats daarvan wordt het ge­wij­zig­de ge­ge­vens­blok gewoon uit­ge­breid en op­ge­sla­gen met de nieuwe bytes. Dit verlicht de belasting van het netwerk. De flexi­bi­li­teit van de be­stands­wij­zi­gin­gen is echter re­ken­in­ten­sie­ver, omdat het algoritme eerst moet uitzoeken hoe de brokken zijn op­ge­splitst.

Wat is da­ta­com­pres­sie?

Bij da­ta­com­pres­sie worden bestanden omgezet naar een al­ter­na­tief formaat dat ef­fi­ci­ën­ter is dan het origineel. Het doel van dit type ge­ge­vens­re­duc­tie is om zowel de benodigde ge­heu­gen­ruim­te als de over­drachts­tijd te ver­min­de­ren. Een der­ge­lij­ke co­de­rings­winst kan worden bereikt met twee ver­schil­len­de be­na­de­rin­gen:

  • Re­dun­dan­tie­com­pres­sie: Bij ver­lies­vrije ge­ge­vens­com­pres­sie kunnen gegevens na com­pres­sie nauw­keu­rig worden ge­de­com­pri­meerd. De invoer- en uit­voer­ge­ge­vens zijn dus identiek. Dit soort com­pres­sie is alleen mogelijk wanneer een bestand re­dun­dan­te in­for­ma­tie bevat.
  • Ir­re­le­van­tie­com­pres­sie: Bij com­pres­sie met verlies wordt ir­re­le­van­te in­for­ma­tie ver­wij­derd om een bestand te com­pri­me­ren. Dit gaat altijd gepaard met ge­ge­vens­ver­lies. Na een ir­re­le­van­tie­com­pres­sie is er slechts een be­na­de­ren­de herstel van de oor­spron­ke­lij­ke gegevens. Het proces voor het clas­si­fi­ce­ren van gegevens als ir­re­le­vant is dis­cre­ti­o­nair. Bij een au­dio­com­pres­sie via MP3 worden bij­voor­beeld de fre­quen­tie­pa­tro­nen ver­wij­derd waarvan wordt aan­ge­no­men dat ze nau­we­lijks of helemaal niet door mensen worden gehoord.

Hoewel com­pres­sie op het niveau van het op­slag­sys­teem in wezen ver­lies­vrij is, wordt ge­ge­vens­ver­lies op andere gebieden, zoals beeld-, video- en audio-over­dracht, bewust ge­ac­cep­teerd om de be­stands­groot­te te ver­klei­nen.

Zowel het coderen als het decoderen van een bestand vereist re­ken­kracht. Dit hangt voor­na­me­lijk af van de gebruikte com­pres­sie­me­tho­de. Sommige tech­nie­ken zijn gericht op een zo compact mogelijke weergave van de oor­spron­ke­lij­ke gegevens, terwijl andere zich richten op het ver­min­de­ren van de benodigde rekentijd. De keuze van de com­pres­sie­me­tho­de is daarom altijd af­han­ke­lijk van de vereisten van het project of de taak waarvoor deze wordt gebruikt.

Welke methode voor ge­ge­vens­re­duc­tie is beter?

Om back-up­pro­ce­du­res te im­ple­men­te­ren of opslag in stan­daard­be­stands­sys­te­men te op­ti­ma­li­se­ren, maken bedrijven doorgaans gebruik van de­du­pli­ca­tie. Dit komt voor­na­me­lijk doordat de­du­pli­ca­tie­sys­te­men uiterst efficiënt zijn wanneer identieke bestanden moeten worden op­ge­sla­gen.

Da­ta­com­pres­sie­me­tho­den daar­en­te­gen gaan doorgaans gepaard met hogere re­ken­kos­ten en vereisen daarom com­plexe­re platforms. Op­slag­sys­te­men die een com­bi­na­tie van beide methoden voor ge­ge­vens­re­duc­tie gebruiken, kunnen het meest effectief worden ingezet. Eerst worden re­dun­dan­te gegevens uit de op te slaan bestanden ver­wij­derd met behulp van de­du­pli­ca­tie, waarna de res­te­ren­de gegevens worden ge­com­pri­meerd.

Ga naar hoofdmenu