Che cos'è la tecnologia e la soluzione di mascheramento dei dati in Network Packet Broker?

1. Il concetto di mascheramento dei dati

La mascheratura dei dati è anche nota come occultamento dei dati. Si tratta di un metodo tecnico per convertire, modificare o nascondere dati sensibili come numeri di telefono cellulare, numeri di carta di credito e altre informazioni, in base a regole e politiche di mascheratura predefinite. Questa tecnica viene utilizzata principalmente per impedire che i dati sensibili vengano utilizzati direttamente in ambienti non sicuri.

Principio di mascheramento dei dati: il mascheramento dei dati deve preservare le caratteristiche originali dei dati, le regole aziendali e la rilevanza dei dati per garantire che lo sviluppo, il test e l'analisi dei dati successivi non vengano influenzati dal mascheramento. Garantire la coerenza e la validità dei dati prima e dopo il mascheramento.

2. Classificazione della mascheratura dei dati

La mascheratura dei dati può essere suddivisa in mascheratura statica dei dati (SDM) e mascheratura dinamica dei dati (DDM).

Mascheramento statico dei dati (SDM)La mascheratura statica dei dati richiede la creazione di un nuovo database per l'ambiente non di produzione, al fine di isolarlo dall'ambiente di produzione. I dati sensibili vengono estratti dal database di produzione e quindi archiviati nel database non di produzione. In questo modo, i dati anonimizzati vengono isolati dall'ambiente di produzione, soddisfacendo le esigenze aziendali e garantendo la sicurezza dei dati di produzione.

SDM

Mascheramento dinamico dei dati (DDM)Viene generalmente utilizzato nell'ambiente di produzione per desensibilizzare i dati sensibili in tempo reale. Talvolta, sono necessari diversi livelli di mascheramento per leggere gli stessi dati sensibili in situazioni diverse. Ad esempio, ruoli e autorizzazioni diversi possono implementare schemi di mascheramento differenti.

DDM

Applicazione per la creazione di report e la mascheratura di prodotti dati

Tali scenari includono principalmente prodotti di monitoraggio dei dati interni o sistemi di visualizzazione dei dati, prodotti di dati di servizi esterni e report basati sull'analisi dei dati, come report aziendali e revisioni di progetto.

segnalazione dati mascheramento del prodotto

3. Soluzione di mascheramento dei dati

Tra i metodi più comuni di mascheramento dei dati si annoverano: invalidazione, valore casuale, sostituzione dei dati, crittografia simmetrica, valore medio, offset e arrotondamento, ecc.

InvaliditàL'invalidazione si riferisce alla crittografia, al troncamento o all'occultamento di dati sensibili. Questo schema solitamente sostituisce i dati reali con simboli speciali (come *). L'operazione è semplice, ma gli utenti non possono conoscere il formato dei dati originali, il che potrebbe influire sulle successive applicazioni dei dati.

Valore casualeIl valore casuale si riferisce alla sostituzione casuale di dati sensibili (numeri sostituiscono cifre, lettere sostituiscono lettere e caratteri sostituiscono caratteri). Questo metodo di mascheramento garantisce in una certa misura il formato dei dati sensibili e facilita la successiva applicazione dei dati. Per alcune parole significative, come nomi di persone e luoghi, potrebbe essere necessario un dizionario di mascheramento.

Sostituzione dei datiLa sostituzione dei dati è simile alla mascheratura di valori nulli e casuali, con la differenza che, anziché utilizzare caratteri speciali o valori casuali, i dati da mascherare vengono sostituiti con un valore specifico.

Crittografia simmetricaLa crittografia simmetrica è un metodo di mascheramento reversibile speciale. Crittografa i dati sensibili tramite chiavi e algoritmi di crittografia. Il formato del testo cifrato è coerente con i dati originali secondo regole logiche.

MediaIl metodo della media è spesso utilizzato in ambito statistico. Per i dati numerici, si calcola prima la media e poi si distribuiscono casualmente i valori desensibilizzati attorno ad essa, mantenendo così costante la somma dei dati.

Offset e arrotondamentoQuesto metodo modifica i dati digitali mediante uno spostamento casuale. L'arrotondamento con offset garantisce l'autenticità approssimativa dell'intervallo, mantenendo al contempo la sicurezza dei dati, risultando più vicino ai dati reali rispetto ai metodi precedenti e rivestendo grande importanza nello scenario dell'analisi dei big data.

ML-NPB-5660-数据脱敏

Il modello consigliatoML-NPB-5660" per la mascheratura dei dati

4. Tecniche di mascheramento dei dati comunemente utilizzate

(1). Tecniche statistiche

Campionamento e aggregazione dei dati

- Campionamento dei dati: l'analisi e la valutazione del set di dati originale mediante la selezione di un sottoinsieme rappresentativo del set di dati è un metodo importante per migliorare l'efficacia delle tecniche di anonimizzazione.

- Aggregazione dei dati: In quanto insieme di tecniche statistiche (come somma, conteggio, media, massimo e minimo) applicate agli attributi dei microdati, il risultato è rappresentativo di tutti i record presenti nel set di dati originale.

(2). Crittografia

La crittografia è un metodo comune per desensibilizzare o migliorare l'efficacia della desensibilizzazione. Diversi tipi di algoritmi di crittografia possono ottenere diversi effetti di desensibilizzazione.

- Crittografia deterministica: una crittografia simmetrica non casuale. Solitamente elabora i dati di identificazione e, se necessario, può decrittografare e ripristinare il testo cifrato all'ID originale, ma la chiave deve essere adeguatamente protetta.

- Crittografia irreversibile: la funzione hash viene utilizzata per elaborare i dati, solitamente per i dati di identificazione. Non è possibile decrittografare direttamente i dati e la relazione di mappatura deve essere salvata. Inoltre, a causa della natura stessa della funzione hash, possono verificarsi collisioni di dati.

- Crittografia omomorfica: viene utilizzato l'algoritmo omomorfico del testo cifrato. La sua caratteristica è che il risultato dell'operazione sul testo cifrato è lo stesso di quello dell'operazione sul testo in chiaro dopo la decrittazione. Pertanto, è comunemente utilizzato per elaborare campi numerici, ma non è ampiamente utilizzato per motivi di prestazioni.

(3). Tecnologia di sistema

La tecnologia di soppressione elimina o protegge i dati che non soddisfano i requisiti di protezione della privacy, ma non li pubblica.

- Mascheramento: si riferisce al metodo di desensibilizzazione più comune per mascherare il valore dell'attributo, ad esempio il numero dell'avversario, la carta d'identità viene contrassegnata con un asterisco o l'indirizzo viene troncato.

- Soppressione locale: si riferisce al processo di eliminazione di specifici valori di attributo (colonne), rimozione di campi dati non essenziali;

- Soppressione dei record: si riferisce al processo di eliminazione di record (righe) specifici, ovvero l'eliminazione di record di dati non essenziali.

(4). Tecnologia degli pseudonimi

La pseudonimia è una tecnica di de-identificazione che utilizza uno pseudonimo per sostituire un identificatore diretto (o altro identificatore sensibile). Le tecniche di pseudonimia creano identificatori univoci per ogni singolo soggetto, in sostituzione di identificatori diretti o sensibili.

- Può generare valori casuali in modo indipendente per corrispondere all'ID originale, salvare la tabella di mappatura e controllare rigorosamente l'accesso alla tabella di mappatura.

- È possibile utilizzare la crittografia anche per generare pseudonimi, ma è necessario conservare correttamente la chiave di decrittazione;

Questa tecnologia è ampiamente utilizzata nel caso di un gran numero di utenti di dati indipendenti, come OpenID nello scenario di una piattaforma aperta, dove diversi sviluppatori ottengono OpenID diversi per lo stesso utente.

(5). Tecniche di generalizzazione

La tecnica di generalizzazione si riferisce a una tecnica di de-identificazione che riduce la granularità degli attributi selezionati in un set di dati e fornisce una descrizione più generale e astratta dei dati stessi. La tecnologia di generalizzazione è facile da implementare e può proteggere l'autenticità dei dati a livello di record. Viene comunemente utilizzata nei prodotti o nei report basati sui dati.

- Arrotondamento: prevede la selezione di una base di arrotondamento per l'attributo selezionato, ad esempio per eccesso o per difetto, producendo risultati di 100, 500, 1K e 10K.

- Tecniche di codifica superiore e inferiore: Sostituisci i valori superiori (o inferiori) alla soglia con una soglia che rappresenta il livello superiore (o inferiore), ottenendo un risultato di "sopra X" o "sotto X".

(6). Tecniche di randomizzazione

Come tecnica di de-identificazione, la randomizzazione consiste nel modificare il valore di un attributo tramite randomizzazione, in modo che il valore risultante sia diverso dal valore reale originale. Questo processo riduce la capacità di un aggressore di ricavare il valore di un attributo da altri valori presenti nello stesso record di dati, ma compromette l'autenticità dei dati risultanti, un problema comune nei dati di test di produzione.


Data di pubblicazione: 27 settembre 2022