La deduplicazione dei dati è una tecnologia di archiviazione molto diffusa che ottimizza la capacità di memoria. Elimina i dati ridondanti rimuovendo i duplicati dal dataset, lasciandone solo una copia, come mostrato nella figura seguente. Questa tecnologia può ridurre notevolmente la necessità di spazio di archiviazione fisico per soddisfare la crescente domanda di archiviazione dati. La tecnologia di deduplicazione offre numerosi vantaggi pratici, principalmente i seguenti:
| (1) | Soddisfare i requisiti di ROI (ritorno sull'investimento)/TCO (costo totale di proprietà); |
| (2) | La rapida crescita dei dati può essere controllata efficacemente; |
| (3) | Aumentare lo spazio di archiviazione effettivo e migliorare l'efficienza dello stoccaggio; |
| (4) | Risparmio sui costi totali di stoccaggio e gestione; |
| (5) | Risparmiare la larghezza di banda della rete per la trasmissione dei dati; |
| (6) | Risparmio sui costi di esercizio e manutenzione, quali spazio, alimentazione elettrica e raffreddamento. |
La tecnologia di deduplicazione è ampiamente utilizzata nei sistemi di backup e archiviazione dei dati, poiché, a seguito di molteplici backup, si generano numerosi dati duplicati, situazione per cui questa tecnologia si presta particolarmente bene. Infatti, la deduplicazione può essere impiegata in diverse situazioni, inclusi sistemi di archiviazione dati online, near-line e offline. Può essere implementata in file system, gestori di volumi, NAS e SAN. Inoltre, la deduplicazione può essere utilizzata per il ripristino di emergenza, la trasmissione e la sincronizzazione dei dati, e come tecnologia di compressione dati può essere impiegata per l'impacchettamento dei dati. Grazie alla deduplicazione, numerose applicazioni possono ridurre lo spazio di archiviazione necessario, risparmiare larghezza di banda di rete, migliorare l'efficienza dello storage, ridurre i tempi di backup e contenere i costi.
La deduplicazione ha due dimensioni principali: i rapporti di deduplicazione e le prestazioni. Le prestazioni della deduplicazione dipendono dalla specifica tecnologia di implementazione, mentre il tasso di deduplicazione è determinato dalle caratteristiche dei dati stessi e dai modelli di applicazione, come mostrato nella tabella seguente. I fornitori di storage attualmente riportano tassi di deduplicazione che vanno da 20:1 a 500:1.
| Elevato tasso di deduplicazione | Basso tasso di deduplicazione |
| Dati creati dall'utente | Dati provenienti dal mondo naturale |
| Dati a basso tasso di variazione | Dati ad alto tasso di cambiamento |
| Dati di riferimento, dati inattivi | Dati attivi |
| Applicazione con bassa frequenza di variazione dei dati | Applicazione con elevato tasso di variazione dei dati |
| Backup completo dei dati | Backup incrementale dei dati |
| Archiviazione dei dati a lungo termine | archiviazione dati a breve termine |
| Ampia gamma di applicazioni dati | Gamma limitata di applicazioni dati |
| Elaborazione continua dei dati aziendali | elaborazione dati aziendali generali |
| Segmentazione di piccoli dati | Segmentazione dei big data |
| Segmentazione dei dati allungata | Segmentazione dei dati a lunghezza fissa |
| Contenuto dei dati percepito | Contenuto dei dati sconosciuto |
| Deduplicazione dei dati temporali | Deduplicazione dei dati spaziali |
Punti di implementazione della deduplicazione
Nello sviluppo o nell'applicazione della tecnologia di deduplicazione, è necessario considerare diversi fattori, in quanto questi influenzano direttamente le sue prestazioni e la sua efficacia.
| (1) | Che cosa | Quali dati vengono deponderati? |
| (2) | Quando | Quando verrà eliminato il peso? |
| (3) | Dove | Dove si trova il programma di dimagrimento? |
| (4) | Come | Come ridurre il peso? |
Tecnologia chiave di deduplicazione
Il processo di deduplicazione di un sistema di archiviazione funziona generalmente in questo modo: innanzitutto, il file di dati viene suddiviso in blocchi, per ogni blocco di dati viene calcolata l'impronta digitale (fingerprint) e, in base all'hash dell'impronta digitale, vengono cercate le parole chiave corrispondenti che indicano i blocchi di dati duplicati. In tal caso, viene memorizzato solo il numero di indice del blocco di dati; altrimenti, significa che il blocco di dati è l'unico elemento nuovo. A questo punto, il blocco di dati viene memorizzato e vengono create le relative informazioni meta. In questo modo, un file fisico nel sistema di archiviazione corrisponde a una rappresentazione logica di un insieme di metadati FP. Durante la lettura del file, si legge prima il file logico, quindi, in base alla sequenza FP, si estrae il blocco di dati corrispondente dal sistema di archiviazione e si ripristina la copia del file fisico. Come si può evincere dal processo sopra descritto, le tecnologie chiave della deduplicazione includono principalmente la segmentazione dei blocchi di dati del file, il calcolo dell'impronta digitale del blocco di dati e il recupero del blocco di dati.
(1) Segmentazione del blocco dati del file
(2) Calcolo dell'impronta digitale del blocco dati
(3) Recupero del blocco dati
Per trovare questi modelli consigliati per iniziare la deduplicazione dei pacchetti di rete:
Mylinking™ Network Packet Broker (NPB) ML-NPB-640048*10GE SFP+ più 4*40GE/100GE QSFP28, max 880 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-56606*40GE/100GE QSFP28 più 48*10GE/25GE SFP28, velocità massima 1,8 Tbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-506048*10GE SFP+ più 2*40GE QSFP, max 560 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-486048*10GE SFP+, Max 480Gbps, Function Plus
Mylinking™ Network Packet Broker (NPB) ML-NPB-481048*10GE SFP+, Max 480 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-2410P24*10GE SFP+, Max 240 Gbps, Funzione DPI
Mylinking™ Network Packet Broker (NPB) ML-NPB-6400
48*10GE SFP+ più 4*40GE/100GE QSFP28, max 880 Gbps
Data di pubblicazione: 18 ottobre 2022

