Metoder for datareduksjon kan brukes til å redusere mengden data som lagres fysisk. Dette sparer lagringsplass og kostnader.

Hva betyr datareduksjon?

Begrepet datareduksjon omfatter ulike metoder som brukes for å optimalisere kapasiteten. Slike metoder har som mål å redusere mengden data som lagres. Ettersom datamengdene øker over hele verden, er datareduksjon nødvendig for å sikre ressurs- og kostnadseffektivitet ved lagring av data.

Datareduksjon kan gjennomføres ved hjelp av datakomprimering og deduplisering. Mens tapsfri komprimering utnytter redundans i en fil for å komprimere data, sammenligner dedupliseringsalgoritmer data på tvers av filer for å unngå duplikater.

Hva er deduplisering?

Deduplisering er en prosess for datareduksjon som i hovedsak går ut på å forhindre dataredundans i lagringssystemet. Den kan implementeres enten på lagringsstedet eller ved datakilden. Man benytter en dedupliseringsmotor som bruker spesielle algoritmer til å identifisere og fjerne redundante filer eller datablokker. Det viktigste anvendelsesområdet for deduplisering er sikkerhetskopiering av data.

Målet med datareduksjon ved hjelp av deduplisering er å lagre bare så mye informasjon på ikke-flyktige lagringsmedier som er nødvendig for å kunne gjenopprette en fil uten tap. Jo flere duplikater som slettes, desto mindre blir datamengden som må lagres eller overføres.

Identifisering av duplikater kan for eksempel gjøres på filnivå med Git eller Dropbox. En mer effektiv metode er imidlertid å bruke dedupliseringsalgoritmer, som fungerer på delfilnivå. For å gjøre dette deles filene først opp i datablokker (chunks) og tildeles unike kontrollsummer, eller hashverdier. Sporingsdatabasen, som inneholder alle kontrollsummene, fungerer som en sentral overvåkingsenhet.

De blokkbaserte dedupliseringsmetodene kan deles inn i to varianter:

  • Fast blokklengde: Filene deles inn i seksjoner av nøyaktig samme lengde, basert på filens eller RAID-systemets klyngestørrelse (vanligvis 4 KB)
  • Variabel blokklengde: Algoritmen deler dataene inn i forskjellige blokker, hvor lengden varierer avhengig av typen data som skal behandles.

Måten blokkene deles inn på har stor innvirkning på effektiviteten ved datadeduplisering. Dette merkes særlig når dedupliserte filer senere endres. Ved bruk av faste blokkstørrelser vil en endring i en fil føre til at alle påfølgende segmenter også klassifiseres som nye av dedupliseringsalgoritmen, på grunn av forskyvningen i blokkgrensene. Dette øker databehandlingsbelastningen og båndbreddeforbruket.

Hvis en algoritme derimot bruker variable blokkgrenser, har endringer i en enkelt datablokk ingen innvirkning på de påfølgende segmentene. I stedet utvides den endrede datablokken ganske enkelt og lagres sammen med de nye byteene. Dette avlaster nettverket. Fleksibiliteten ved filendringene er imidlertid mer ressurskrevende, siden algoritmen først må finne ut hvordan blokkene er delt opp.

Hva er datakomprimering?

Ved datakomprimering konverteres filer til et alternativt format som er mer effektivt enn originalen. Målet med denne typen datareduksjon er å redusere både den nødvendige lagringsplassen og overføringstiden. En slik komprimeringsgevinst kan oppnås ved hjelp av to ulike metoder:

  • Redundanskomprimering: Ved tapsfri datakomprimering kan dataene dekomprimeres nøyaktig slik de var før komprimeringen. Inngangs- og utgangsdataene er derfor identiske. Denne typen komprimering er kun mulig når en fil inneholder overflødig informasjon.
  • Komprimering av irrelevant informasjon: Ved komprimering med tap slettes irrelevant informasjon for å komprimere en fil. Dette medfører alltid tap av data. Etter en slik komprimering kan de opprinnelige dataene bare gjenopprettes omtrentlig. Prosessen for å klassifisere data som irrelevant er skjønnsmessig. Ved lydkomprimering via MP3 er det for eksempel de frekvensmønstrene som antas å være knapt eller ikke i det hele tatt hørbare for mennesker, som fjernes.

Selv om komprimering på lagringssystemnivå i hovedsak er tapsfri, aksepteres datatap på andre områder, for eksempel ved overføring av bilder, video og lyd, bevisst for å redusere filstørrelsen.

Både koding og dekoding av en fil krever databehandling. Dette avhenger først og fremst av hvilken komprimeringsmetode som brukes. Mens noen teknikker tar sikte på å gi en så kompakt gjengivelse av originaldataene som mulig, fokuserer andre på å redusere den nødvendige beregningstiden. Valget av komprimeringsmetode avhenger derfor alltid av kravene til prosjektet eller oppgaven den skal brukes til.

Hvilken metode for datareduksjon er best?

For å gjennomføre sikkerhetskopieringsrutiner eller optimalisere lagringsplassen i standardfilsystemer benytter bedrifter seg vanligvis av deduplisering. Dette skyldes hovedsakelig at dedupliseringssystemer er svært effektive når identiske filer skal lagres.

Datakomprimeringsmetoder er derimot vanligvis forbundet med høyere databehandlingskostnader og krever derfor mer komplekse plattformer. Lagringssystemer som kombinerer begge metodene for datareduksjon, kan utnyttes mest effektivt. Først fjernes redundans fra filene som skal lagres ved hjelp av deduplisering, og deretter komprimeres de gjenværende dataene.

Go to Main Menu