1. Il concetto di Data Masking
Il mascheramento dei dati, noto anche come data masking, è un metodo tecnico per convertire, modificare o nascondere dati sensibili come numeri di cellulare, numeri di carte di credito e altre informazioni, quando sono state definite regole e policy di mascheramento. Questa tecnica viene utilizzata principalmente per impedire l'utilizzo diretto di dati sensibili in ambienti inaffidabili.
Principio del mascheramento dei dati: il mascheramento dei dati deve mantenere le caratteristiche dei dati originali, le regole aziendali e la pertinenza dei dati per garantire che lo sviluppo, i test e l'analisi dei dati successivi non siano influenzati dal mascheramento. Garantire la coerenza e la validità dei dati prima e dopo il mascheramento.
2. Classificazione del mascheramento dei dati
Il mascheramento dei dati può essere suddiviso in mascheramento dei dati statico (SDM) e mascheramento dei dati dinamico (DDM).
Mascheratura statica dei dati (SDM): Il mascheramento statico dei dati richiede la creazione di un nuovo database in un ambiente non di produzione per l'isolamento dall'ambiente di produzione. I dati sensibili vengono estratti dal database di produzione e quindi archiviati nel database non di produzione. In questo modo, i dati desensibilizzati vengono isolati dall'ambiente di produzione, il che soddisfa le esigenze aziendali e garantisce la sicurezza dei dati di produzione.
Mascheramento dinamico dei dati (DDM): Viene generalmente utilizzato in ambiente di produzione per desensibilizzare i dati sensibili in tempo reale. A volte, sono necessari diversi livelli di mascheramento per leggere gli stessi dati sensibili in situazioni diverse. Ad esempio, ruoli e autorizzazioni diversi possono implementare schemi di mascheramento diversi.
Applicazione di segnalazione dati e mascheramento dei prodotti dati
Tali scenari includono principalmente prodotti di monitoraggio dei dati interni o cartelloni pubblicitari, prodotti di dati di servizi esterni e report basati sull'analisi dei dati, come report aziendali e revisione dei progetti.
3. Soluzione di mascheramento dei dati
Gli schemi comuni di mascheramento dei dati includono: invalidazione, valore casuale, sostituzione dei dati, crittografia simmetrica, valore medio, offset e arrotondamento, ecc.
Invalidazione: L'invalidazione si riferisce alla crittografia, al troncamento o all'occultamento di dati sensibili. Questo schema di solito sostituisce i dati reali con simboli speciali (come *). L'operazione è semplice, ma gli utenti non possono conoscere il formato dei dati originali, il che potrebbe influire sulle successive applicazioni dei dati.
Valore casuale: Il valore casuale si riferisce alla sostituzione casuale di dati sensibili (numeri che sostituiscono cifre, lettere che sostituiscono lettere e caratteri che sostituiscono caratteri). Questo metodo di mascheramento garantirà in una certa misura il formato dei dati sensibili e faciliterà la successiva applicazione dei dati. Potrebbero essere necessari dizionari di mascheramento per alcune parole significative, come nomi di persone e luoghi.
Sostituzione dei dati: La sostituzione dei dati è simile al mascheramento dei valori nulli e casuali, con la differenza che invece di utilizzare caratteri speciali o valori casuali, i dati di mascheramento vengono sostituiti con un valore specifico.
Crittografia simmetrica: La crittografia simmetrica è uno speciale metodo di mascheramento reversibile. Crittografa i dati sensibili tramite chiavi e algoritmi di crittografia. Il formato del testo cifrato è coerente con i dati originali in termini di regole logiche.
Media: Lo schema della media è spesso utilizzato in scenari statistici. Per i dati numerici, calcoliamo prima la loro media e poi distribuiamo casualmente i valori desensibilizzati attorno alla media, mantenendo così costante la somma dei dati.
Offset e arrotondamento: Questo metodo modifica i dati digitali tramite uno spostamento casuale. L'arrotondamento offset garantisce l'autenticità approssimativa dell'intervallo mantenendo al contempo la sicurezza dei dati, che sono più vicini ai dati reali rispetto agli schemi precedenti e hanno grande importanza nello scenario dell'analisi dei big data.
Il modello di raccomandazione "Codice articolo: ML-NPB-5660" per il mascheramento dei dati
4. Tecniche di mascheramento dei dati comunemente utilizzate
(1). Tecniche statistiche
Campionamento e aggregazione dei dati
- Campionamento dei dati: l'analisi e la valutazione del set di dati originale selezionando un sottoinsieme rappresentativo del set di dati è un metodo importante per migliorare l'efficacia delle tecniche di de-identificazione.
- Aggregazione dei dati: come insieme di tecniche statistiche (ad esempio sommatoria, conteggio, media, massimo e minimo) applicate agli attributi nei microdati, il risultato è rappresentativo di tutti i record nel set di dati originale.
(2). Crittografia
La crittografia è un metodo comune per desensibilizzare o migliorare l'efficacia della desensibilizzazione. Diversi tipi di algoritmi di crittografia possono ottenere effetti di desensibilizzazione diversi.
- Crittografia deterministica: crittografia simmetrica non casuale. Solitamente elabora i dati identificativi e può decifrare e ripristinare il testo cifrato all'ID originale quando necessario, ma la chiave deve essere adeguatamente protetta.
- Crittografia irreversibile: la funzione hash viene utilizzata per elaborare i dati, solitamente utilizzati per i dati identificativi. Non è possibile decifrarli direttamente e la relazione di mappatura deve essere salvata. Inoltre, a causa delle caratteristiche della funzione hash, potrebbero verificarsi collisioni di dati.
- Crittografia omomorfica: viene utilizzato l'algoritmo omomorfico del testo cifrato. La sua caratteristica è che il risultato dell'operazione di cifratura è identico a quello dell'operazione di decifratura del testo in chiaro. Pertanto, è comunemente utilizzato per elaborare campi numerici, ma non è ampiamente utilizzato per motivi di prestazioni.
(3). Tecnologia di sistema
La tecnologia di soppressione elimina o scherma gli elementi di dati che non soddisfano i requisiti di protezione della privacy, ma non li pubblica.
- Mascheramento: si riferisce al metodo di desensibilizzazione più comune per mascherare il valore dell'attributo, ad esempio il numero dell'avversario, la carta d'identità contrassegnata con un asterisco o l'indirizzo troncato.
- Soppressione locale: si riferisce al processo di eliminazione di valori di attributi specifici (colonne), rimuovendo i campi dati non essenziali;
- Soppressione dei record: si riferisce al processo di eliminazione di record specifici (righe), eliminando record di dati non essenziali.
(4). Tecnologia dello pseudonimo
Lo pseudomanning è una tecnica di de-identificazione che utilizza uno pseudonimo per sostituire un identificatore diretto (o un altro identificatore sensibile). Le tecniche di pseudonimo creano identificatori univoci per ogni singolo soggetto, anziché identificatori diretti o sensibili.
- Può generare valori casuali in modo indipendente per corrispondere all'ID originale, salvare la tabella di mappatura e controllare rigorosamente l'accesso alla tabella di mappatura.
- È possibile utilizzare anche la crittografia per creare pseudonimi, ma è necessario conservare correttamente la chiave di decrittazione;
Questa tecnologia è ampiamente utilizzata nel caso di un gran numero di utenti di dati indipendenti, come OpenID nello scenario della piattaforma aperta, in cui diversi sviluppatori ottengono diversi OpenID per lo stesso utente.
(5). Tecniche di generalizzazione
La tecnica di generalizzazione si riferisce a una tecnica di de-identificazione che riduce la granularità di attributi selezionati in un set di dati e fornisce una descrizione più generale e astratta dei dati. La tecnologia di generalizzazione è facile da implementare e può proteggere l'autenticità dei dati a livello di record. È comunemente utilizzata nei prodotti o nei report di dati.
- Arrotondamento: comporta la selezione di una base di arrotondamento per l'attributo selezionato, ad esempio per eccesso o per difetto, producendo risultati pari a 100, 500, 1K e 10K
- Tecniche di codifica superiore e inferiore: sostituire i valori al di sopra (o al di sotto) della soglia con una soglia che rappresenta il livello superiore (o inferiore), ottenendo un risultato di "sopra X" o "sotto X"
(6). Tecniche di randomizzazione
Come tecnica di de-identificazione, la tecnologia di randomizzazione si riferisce alla modifica del valore di un attributo tramite randomizzazione, in modo che il valore dopo la randomizzazione sia diverso dal valore reale originale. Questo processo riduce la capacità di un aggressore di ricavare il valore di un attributo da altri valori di attributo nello stesso record di dati, ma compromette l'autenticità dei dati risultanti, come accade comunemente con i dati di test di produzione.
Data di pubblicazione: 27 settembre 2022