Datu sa­ma­zi­nā­ša­nas metodes var izmantot, lai sa­ma­zi­nā­tu fiziski uzglabāto datu apjomu. Tas ļauj ietaupīt uz­gla­bā­ša­nas vietu un izmaksas.

Ko nozīmē datu redukcija?

Termins „datu apjoma sa­ma­zi­nā­ša­na” aptver dažādas metodes, ko izmanto, lai op­ti­mi­zē­tu uz­gla­bā­ša­nas ka­pa­ci­tā­ti. Šo metožu mērķis ir samazināt uz­gla­bā­ja­mo datu apjomu. Ņemot vērā datu apjoma pieaugumu visā pasaulē, datu apjoma sa­ma­zi­nā­ša­na ir ne­pie­cie­ša­ma, lai no­dro­ši­nā­tu resursu un izmaksu efek­ti­vi­tā­ti datu uz­gla­bā­ša­nā.

Datu apjoma sa­ma­zi­nā­ša­nu var veikt, iz­man­to­jot datu sa­spie­ša­nu un dublikātu novēršanu. Kamēr bezzau­dē­ju­mu sa­spie­ša­na izmanto failā esošās liekās in­for­mā­ci­jas, lai saspiestu datus, dublikātu no­vēr­ša­nas algoritmi salīdzina datus starp failiem, lai iz­vai­rī­tos no at­kār­to­ju­miem.

Kas ir datu dublikātu novēršana?

De­dup­li­kā­ci­ja ir datu apjoma sa­ma­zi­nā­ša­nas process, kura pamatā ir datu dublējumu novēršana datu uz­gla­bā­ša­nas sistēmā. To var īstenot gan datu uz­gla­bā­ša­nas vietā, gan datu avotā. Šim nolūkam tiek izmantots de­dup­li­kā­ci­jas mehānisms, kas, iz­man­to­jot īpašus al­go­ritmus, iden­ti­fi­cē un likvidē liekos failus vai datu blokus. Galvenā de­dup­li­kā­ci­jas pie­lie­to­ju­ma joma ir datu dublēšana.

Datu apjoma sa­ma­zi­nā­ša­nas mērķis, iz­man­to­jot dublikātu dzēšanu, ir uz ne­iz­dzē­ša­ma­jiem datu nesējiem ierakstīt tikai tik daudz in­for­mā­ci­jas, cik ne­pie­cie­šams, lai failu varētu atjaunot bez zau­dē­ju­miem. Jo vairāk dublikātu tiek dzēsts, jo mazāks ir datu apjoms, kas jāuzglabā vai jāpārsūta.

Dublikātu iden­ti­fi­cē­ša­nu var veikt, piemēram, failu līmenī, iz­man­to­jot Git vai Dropbox. Tomēr efek­tī­vā­ka metode ir dublikātu no­vēr­ša­nas algoritmu iz­man­to­ša­na, kas darbojas failu ap­akš­vie­nī­bu līmenī. Lai to izdarītu, failus vispirms sadala datu blokos (daļās) un piešķir tiem unikālas kon­trolsum­mas jeb haša vērtības. Uz­rau­dzī­bas datu bāze, kurā ir iekļautas visas kon­trolsum­mas, darbojas kā centrālā uz­rau­dzī­bas struktūra.

Bloku bāzētās dublikātu no­vēr­ša­nas metodes var iedalīt divos veidos:

  • Fiksēts bloka garums: faili tiek sadalīti vienāda garuma sekcijās, pa­ma­to­jo­ties uz faila vai RAID sistēmas klastera izmēru (parasti 4 KB)
  • Mainīgs bloka garums: Algoritms sadala datus dažādos blokos, kuru garums mainās atkarībā no ap­strā­dā­ja­mo datu veida.

Bloku sa­da­lī­jums ie­vē­ro­ja­mi ietekmē datu dublikātu no­vēr­ša­nas efek­ti­vi­tā­ti. Tas ir īpaši jūtams gadījumos, kad faili, no kuriem ir novērsti dublikāti, tiek vēlāk mainīti. Ja tiek izmantoti fiksēti bloku izmēri, faila izmaiņu gadījumā dublikātu no­vēr­ša­nas algoritms visus nākamos segmentus arī klasificē kā jaunus, jo mainās bloku robežas. Tas palielina aprēķinu slodzi un plat­jos­las iz­man­to­ša­nu.

Ja, no otras puses, algoritms izmanto mainīgas bloku robežas, atsevišķa datu bloka izmaiņas neietekmē nākamos segmentus. Tā vietā mo­di­fi­cē­tais datu bloks vienkārši tiek pa­pla­ši­nāts un saglabāts kopā ar jaunajiem baitiem. Tas samazina slodzi uz tīklu. Tomēr šāda failu izmaiņu elastība prasa lielākus skait­ļo­ša­nas resursus, jo al­go­rit­mam vispirms ir jā­no­s­kaid­ro, kā ir sadalīti fragmenti.

Kas ir datu sa­spie­ša­na?

Datu sa­spie­ša­nā faili tiek pār­vei­do­ti al­ter­na­tī­vā formātā, kas ir efek­tī­vāks nekā sā­kot­nē­jais. Šāda veida datu apjoma sa­ma­zi­nā­ša­nas mērķis ir samazināt ne­pie­cie­ša­mo atmiņas vietu, kā arī pārraides laiku. Šādu kodēšanas ieguvumu var panākt, iz­man­to­jot divas dažādas pieejas:

  • Re­dun­dan­ces kom­pre­si­ja: iz­man­to­jot bezzau­dē­ju­mu datu kom­pre­si­ju, datus pēc kom­pre­si­jas var precīzi at­kom­pre­sēt. Tādējādi ieejas un izejas dati ir identiski. Šāda veida kom­pre­si­ja ir iespējama tikai tad, ja failā ir liekā in­for­mā­ci­ja.
  • Ne­no­zī­mī­gās in­for­mā­ci­jas kom­pre­si­ja: Ar zaudējumu kom­pre­si­ju faila sa­spie­ša­nai tiek dzēsta ne­no­zī­mī­gā in­for­mā­ci­ja. Tas vienmēr ir saistīts ar datu zudumu. Pēc ne­no­zī­mī­gās in­for­mā­ci­jas kom­pre­si­jas sā­kot­nē­jie dati tiek atjaunoti tikai aptuveni. Datu kla­si­fi­cē­ša­na kā ne­no­zī­mī­giem ir dis­kre­cio­nā­ra. Piemēram, audio kom­pre­si­jā ar MP3 tiek noņemti tie frekvenču modeļi, par kuriem tiek pieņemts, ka cilvēks tos dzird ļoti vāji vai vispār nedzird.

Lai gan sa­spie­ša­na uz­gla­bā­ša­nas sistēmas līmenī būtībā notiek bez datu zudumiem, datu zudumi citās jomās, piemēram, attēlu, video un audio pārraides laikā, tiek apzināti pieļauti, lai sa­ma­zi­nā­tu failu izmēru.

Gan faila kodēšanai, gan de­ko­dē­ša­nai ir ne­pie­cie­šams aprēķinu resursu patēriņš. Tas gal­ve­no­kārt ir atkarīgs no iz­man­to­tās sa­spie­ša­nas metodes. Kamēr dažas metodes vērstas uz oriģinālo datu iespējami kompaktu at­tē­lo­ju­mu, citas kon­cen­trē­jas uz ne­pie­cie­ša­mā aprēķinu laika sa­ma­zi­nā­ša­nu. Tādēļ sa­spie­ša­nas metodes izvēle vienmēr ir atkarīga no projekta vai uzdevuma prasībām, kuram tā tiek izmantota.

Kura datu re­duk­ci­jas metode ir labāka?

Lai īstenotu dublējumu pro­ce­dū­ras vai op­ti­mi­zē­tu datu uz­gla­bā­ša­nu standarta failu sistēmās, uzņēmumi parasti izmanto datu de­dup­li­kā­ci­ju. Tas gal­ve­no­kārt saistīts ar to, ka de­dup­li­kā­ci­jas sistēmas ir ārkārtīgi efektīvas gadījumos, kad jāuzglabā identiski faili.

Savukārt datu sa­spie­ša­nas metodes parasti ir saistītas ar lielākām aprēķinu izmaksām un tādēļ prasa sa­rež­ģī­tā­kas plat­for­mas. Vis­lie­lā­ko efek­ti­vi­tā­ti nodrošina tādas datu uz­gla­bā­ša­nas sistēmas, kurās ap­vie­no­tas abas datu apjoma sa­ma­zi­nā­ša­nas metodes. Vispirms, iz­man­to­jot dublikātu novēršanu, no uz­gla­bā­ja­miem failiem tiek izņemti dublikāti, un pēc tam atlikušie dati tiek saspiesti.

Go to Main Menu