Kas ir datu redukcija?
Datu samazināšanas metodes var izmantot, lai samazinātu fiziski uzglabāto datu apjomu. Tas ļauj ietaupīt uzglabāšanas vietu un izmaksas.
Ko nozīmē datu redukcija?
Termins „datu apjoma samazināšana” aptver dažādas metodes, ko izmanto, lai optimizētu uzglabāšanas kapacitāti. Šo metožu mērķis ir samazināt uzglabājamo datu apjomu. Ņemot vērā datu apjoma pieaugumu visā pasaulē, datu apjoma samazināšana ir nepieciešama, lai nodrošinātu resursu un izmaksu efektivitāti datu uzglabāšanā.
Datu apjoma samazināšanu var veikt, izmantojot datu saspiešanu un dublikātu novēršanu. Kamēr bezzaudējumu saspiešana izmanto failā esošās liekās informācijas, lai saspiestu datus, dublikātu novēršanas algoritmi salīdzina datus starp failiem, lai izvairītos no atkārtojumiem.
Kas ir datu dublikātu novēršana?
Deduplikācija ir datu apjoma samazināšanas process, kura pamatā ir datu dublējumu novēršana datu uzglabāšanas sistēmā. To var īstenot gan datu uzglabāšanas vietā, gan datu avotā. Šim nolūkam tiek izmantots deduplikācijas mehānisms, kas, izmantojot īpašus algoritmus, identificē un likvidē liekos failus vai datu blokus. Galvenā deduplikācijas pielietojuma joma ir datu dublēšana.
Datu apjoma samazināšanas mērķis, izmantojot dublikātu dzēšanu, ir uz neizdzēšamajiem datu nesējiem ierakstīt tikai tik daudz informācijas, cik nepieciešams, lai failu varētu atjaunot bez zaudējumiem. Jo vairāk dublikātu tiek dzēsts, jo mazāks ir datu apjoms, kas jāuzglabā vai jāpārsūta.
Dublikātu identificēšanu var veikt, piemēram, failu līmenī, izmantojot Git vai Dropbox. Tomēr efektīvāka metode ir dublikātu novēršanas algoritmu izmantošana, kas darbojas failu apakšvienību līmenī. Lai to izdarītu, failus vispirms sadala datu blokos (daļās) un piešķir tiem unikālas kontrolsummas jeb haša vērtības. Uzraudzības datu bāze, kurā ir iekļautas visas kontrolsummas, darbojas kā centrālā uzraudzības struktūra.
Bloku bāzētās dublikātu novēršanas metodes var iedalīt divos veidos:
- Fiksēts bloka garums: faili tiek sadalīti vienāda garuma sekcijās, pamatojoties uz faila vai RAID sistēmas klastera izmēru (parasti 4 KB)
- Mainīgs bloka garums: Algoritms sadala datus dažādos blokos, kuru garums mainās atkarībā no apstrādājamo datu veida.
Bloku sadalījums ievērojami ietekmē datu dublikātu novēršanas efektivitāti. Tas ir īpaši jūtams gadījumos, kad faili, no kuriem ir novērsti dublikāti, tiek vēlāk mainīti. Ja tiek izmantoti fiksēti bloku izmēri, faila izmaiņu gadījumā dublikātu novēršanas algoritms visus nākamos segmentus arī klasificē kā jaunus, jo mainās bloku robežas. Tas palielina aprēķinu slodzi un platjoslas izmantošanu.
Ja, no otras puses, algoritms izmanto mainīgas bloku robežas, atsevišķa datu bloka izmaiņas neietekmē nākamos segmentus. Tā vietā modificētais datu bloks vienkārši tiek paplašināts un saglabāts kopā ar jaunajiem baitiem. Tas samazina slodzi uz tīklu. Tomēr šāda failu izmaiņu elastība prasa lielākus skaitļošanas resursus, jo algoritmam vispirms ir jānoskaidro, kā ir sadalīti fragmenti.
Kas ir datu saspiešana?
Datu saspiešanā faili tiek pārveidoti alternatīvā formātā, kas ir efektīvāks nekā sākotnējais. Šāda veida datu apjoma samazināšanas mērķis ir samazināt nepieciešamo atmiņas vietu, kā arī pārraides laiku. Šādu kodēšanas ieguvumu var panākt, izmantojot divas dažādas pieejas:
- Redundances kompresija: izmantojot bezzaudējumu datu kompresiju, datus pēc kompresijas var precīzi atkompresēt. Tādējādi ieejas un izejas dati ir identiski. Šāda veida kompresija ir iespējama tikai tad, ja failā ir liekā informācija.
- Nenozīmīgās informācijas kompresija: Ar zaudējumu kompresiju faila saspiešanai tiek dzēsta nenozīmīgā informācija. Tas vienmēr ir saistīts ar datu zudumu. Pēc nenozīmīgās informācijas kompresijas sākotnējie dati tiek atjaunoti tikai aptuveni. Datu klasificēšana kā nenozīmīgiem ir diskrecionāra. Piemēram, audio kompresijā ar MP3 tiek noņemti tie frekvenču modeļi, par kuriem tiek pieņemts, ka cilvēks tos dzird ļoti vāji vai vispār nedzird.
Lai gan saspiešana uzglabāšanas sistēmas līmenī būtībā notiek bez datu zudumiem, datu zudumi citās jomās, piemēram, attēlu, video un audio pārraides laikā, tiek apzināti pieļauti, lai samazinātu failu izmēru.
Gan faila kodēšanai, gan dekodēšanai ir nepieciešams aprēķinu resursu patēriņš. Tas galvenokārt ir atkarīgs no izmantotās saspiešanas metodes. Kamēr dažas metodes vērstas uz oriģinālo datu iespējami kompaktu attēlojumu, citas koncentrējas uz nepieciešamā aprēķinu laika samazināšanu. Tādēļ saspiešanas metodes izvēle vienmēr ir atkarīga no projekta vai uzdevuma prasībām, kuram tā tiek izmantota.
Kura datu redukcijas metode ir labāka?
Lai īstenotu dublējumu procedūras vai optimizētu datu uzglabāšanu standarta failu sistēmās, uzņēmumi parasti izmanto datu deduplikāciju. Tas galvenokārt saistīts ar to, ka deduplikācijas sistēmas ir ārkārtīgi efektīvas gadījumos, kad jāuzglabā identiski faili.
Savukārt datu saspiešanas metodes parasti ir saistītas ar lielākām aprēķinu izmaksām un tādēļ prasa sarežģītākas platformas. Vislielāko efektivitāti nodrošina tādas datu uzglabāšanas sistēmas, kurās apvienotas abas datu apjoma samazināšanas metodes. Vispirms, izmantojot dublikātu novēršanu, no uzglabājamiem failiem tiek izņemti dublikāti, un pēc tam atlikušie dati tiek saspiesti.