La deduplicazione dei dati è una tecnologia di archiviazione diffusa e diffusa che ottimizza la capacità di archiviazione. Elimina i dati ridondanti rimuovendo i dati duplicati dal set di dati, lasciandone solo una copia. Come mostrato nella figura seguente, questa tecnologia può ridurre notevolmente la necessità di spazio di archiviazione fisico per soddisfare la crescente domanda di archiviazione dei dati. La tecnologia di deduplicazione può apportare molti vantaggi pratici, tra cui principalmente i seguenti aspetti:
(1) | Soddisfare i requisiti ROI (ritorno sull'investimento)/TCO (costo totale di proprietà); |
(2) | La rapida crescita dei dati può essere controllata efficacemente; |
(3) | Aumentare lo spazio di archiviazione effettivo e migliorare l'efficienza di archiviazione; |
(4) | Risparmia sui costi totali di stoccaggio e gestione; |
(5) | Risparmiare la larghezza di banda della rete per la trasmissione dei dati; |
(6) | Risparmia sui costi di gestione e manutenzione, come spazio, alimentazione elettrica e raffreddamento. |
La tecnologia di deduplicazione è ampiamente utilizzata nei sistemi di backup e archiviazione dati, poiché dopo diversi backup si verificano molti dati duplicati, il che la rende particolarmente adatta a questa tecnologia. Infatti, la tecnologia di deduplicazione può essere utilizzata in numerose situazioni, inclusi sistemi di archiviazione di dati online, near-line e offline. Può essere implementata in file system, gestori di volumi, NAS e sistemi SAN. La deduplicazione può essere utilizzata anche per il disaster recovery, la trasmissione e la sincronizzazione dei dati, poiché una tecnologia di compressione dei dati può essere utilizzata per il packaging dei dati. La tecnologia di deduplicazione può aiutare molte applicazioni a ridurre lo spazio di archiviazione dei dati, risparmiare larghezza di banda, migliorare l'efficienza di archiviazione, ridurre la finestra di backup e risparmiare sui costi.
La deduplicazione ha due dimensioni principali: rapporti di deduplicazione e prestazioni. Le prestazioni della deduplicazione dipendono dalla specifica tecnologia di implementazione, mentre la velocità di deduplicazione è determinata dalle caratteristiche dei dati stessi e dai modelli applicativi, come mostrato nella tabella seguente. I fornitori di soluzioni di storage attualmente segnalano velocità di deduplicazione che vanno da 20:1 a 500:1.
Elevato tasso di deduplicazione | Basso tasso di deduplicazione |
Dati creati dall'utente | Dati dal mondo naturale |
Basso tasso di variazione dei dati | Dati ad alto tasso di variazione |
Dati di riferimento, dati inattivi | Dati attivi |
Applicazione a bassa velocità di modifica dei dati | Applicazione ad alta velocità di modifica dei dati |
Backup completo dei dati | Backup incrementale dei dati |
Archiviazione dei dati a lungo termine | Archiviazione dei dati a breve termine |
Ampia gamma di applicazioni di dati | Piccola gamma di applicazioni di dati |
Elaborazione continua dei dati aziendali | Elaborazione dati aziendali generali |
Piccola segmentazione dei dati | Segmentazione dei Big Data |
Segmentazione dati allungata | Segmentazione dei dati a lunghezza fissa |
Contenuto dei dati percepito | Contenuto dei dati sconosciuto |
Deduplicazione dei dati temporali | Deduplicazione dei dati spaziali |
Punti di implementazione della deduplicazione
Quando si sviluppa o si applica la tecnologia Dedupe, occorre considerare diversi fattori, poiché ne influenzano direttamente le prestazioni e l'efficacia.
(1) | Che cosa | Quali dati vengono de-ponderati? |
(2) | Quando | Quando verrà eliminato il peso? |
(3) | Dove | Dov'è la perdita di peso? |
(4) | Come | Come ridurre il peso? |
Tecnologia Dedupe Key
Il processo di deduplicazione del sistema di archiviazione in generale è questo: prima di tutto il file di dati viene suddiviso in un set di dati, per ogni blocco di dati viene calcolata l'impronta digitale e quindi, in base alle parole chiave di ricerca dell'hash dell'impronta digitale, la corrispondenza indica i dati per i blocchi di dati duplicati, memorizza solo il numero di indice del blocco dati, altrimenti significa che il blocco dati è l'unico pezzo di un nuovo blocco dati di archiviazione e crea metainformazioni rilevanti. Pertanto, un file fisico nel sistema di archiviazione corrisponde a una rappresentazione logica di un set di metadati FP. Durante la lettura del file, prima si legge il file logico, quindi, in base alla sequenza FP, si estrae il blocco dati corrispondente dal sistema di archiviazione, si ripristina la copia del file fisico. Dal processo sopra descritto si può vedere che le tecnologie chiave della deduplicazione includono principalmente la segmentazione dei blocchi di dati del file, il calcolo dell'impronta digitale del blocco dati e il recupero dei blocchi di dati.
(1) Segmentazione dei blocchi di dati dei file
(2) Calcolo dell'impronta digitale del blocco dati
(3) Recupero del blocco dati
Per trovare questi modelli consigliati per avviare la deduplicazione dei pacchetti di rete:
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-640048*10GE SFP+ più 4*40GE/100GE QSFP28, Max 880 Gbps
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-56606*40GE/100GE QSFP28 più 48*10GE/25GE SFP28, massimo 1,8 Tbps
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-506048*10GE SFP+ più 2*40GE QSFP, Max 560 Gbps
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-486048*10GE SFP+, Max 480 Gbps, Funzione Plus
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-481048*10GE SFP+, massimo 480 Gbps
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-2410P24*10GE SFP+, Max 240 Gbps, Funzione DPI
Broker di pacchetti di rete (NPB) Mylinking™ ML-NPB-6400
48*10GE SFP+ più 4*40GE/100GE QSFP28, Max 880 Gbps
Data di pubblicazione: 18 ottobre 2022