1. Il concetto di mascheramento dei dati
Il mascheramento dei dati è noto anche come mascheramento dei dati. È un metodo tecnico per convertire, modificare o coprire dati sensibili come numero di cellulare, numero di carta bancaria e altre informazioni quando abbiamo fornito regole e politiche di mascheramento. Questa tecnica viene utilizzata principalmente per impedire che i dati sensibili vengano utilizzati direttamente in ambienti inaffidabili.
Principio del mascheramento dei dati: il mascheramento dei dati dovrebbe mantenere le caratteristiche dei dati originali, le regole aziendali e la pertinenza dei dati per garantire che il successivo sviluppo, test e analisi dei dati non siano influenzati dal mascheramento. Garantire la coerenza e la validità dei dati prima e dopo il mascheramento.
2. Classificazione del mascheramento dei dati
Il mascheramento dei dati può essere suddiviso in mascheramento dei dati statici (SDM) e mascheramento dei dati dinamici (DDM).
Mascheramento dati statici (SDM): Il mascheramento dei dati statici richiede la creazione di un nuovo database dell'ambiente non di produzione per l'isolamento dall'ambiente di produzione. I dati sensibili vengono estratti dal database di produzione e quindi archiviati nel database non di produzione. In questo modo, i dati desensibilizzati vengono isolati dall'ambiente di produzione, soddisfacendo le esigenze aziendali e garantendo la sicurezza dei dati di produzione.
Mascheramento dinamico dei dati (DDM): Viene generalmente utilizzato in ambiente di produzione per desensibilizzare i dati sensibili in tempo reale. A volte sono necessari diversi livelli di mascheramento per leggere gli stessi dati sensibili in situazioni diverse. Ad esempio, ruoli e autorizzazioni diversi possono implementare schemi di mascheramento diversi.
Applicazione di reporting dei dati e mascheramento dei prodotti dati
Tali scenari includono principalmente prodotti di monitoraggio dei dati interni o cartelloni pubblicitari, prodotti di dati di servizi esterni e report basati sull'analisi dei dati, come report aziendali e revisione dei progetti.
3. Soluzione per il mascheramento dei dati
Gli schemi comuni di mascheramento dei dati includono: invalidazione, valore casuale, sostituzione dei dati, crittografia simmetrica, valore medio, offset e arrotondamento, ecc.
Invalidazione: L'invalidamento si riferisce alla crittografia, al troncamento o all'occultamento di dati sensibili. Questo schema solitamente sostituisce i dati reali con simboli speciali (come *). L'operazione è semplice, ma gli utenti non possono conoscere il formato dei dati originali, il che potrebbe influire sulle successive applicazioni dei dati.
Valore casuale: il valore casuale si riferisce alla sostituzione casuale dei dati sensibili (i numeri sostituiscono le cifre, le lettere sostituiscono le lettere e i caratteri sostituiscono i caratteri). Questo metodo di mascheramento garantirà in una certa misura il formato dei dati sensibili e faciliterà la successiva applicazione dei dati. Potrebbero essere necessari dizionari di mascheramento per alcune parole significative, come nomi di persone e luoghi.
Sostituzione dei dati: La sostituzione dei dati è simile al mascheramento di valori nulli e casuali, tranne per il fatto che invece di utilizzare caratteri speciali o valori casuali, i dati di mascheramento vengono sostituiti con un valore specifico.
Crittografia simmetrica: La crittografia simmetrica è uno speciale metodo di mascheramento reversibile. Crittografa i dati sensibili tramite chiavi e algoritmi di crittografia. Il formato del testo cifrato è coerente con i dati originali nelle regole logiche.
Media: Lo schema medio viene spesso utilizzato negli scenari statistici. Per i dati numerici, calcoliamo prima la loro media, quindi distribuiamo casualmente i valori desensibilizzati attorno alla media, mantenendo così costante la somma dei dati.
Offset e arrotondamento: Questo metodo modifica i dati digitali tramite spostamento casuale. L'arrotondamento offset garantisce l'autenticità approssimativa dell'intervallo mantenendo la sicurezza dei dati, che è più vicino ai dati reali rispetto agli schemi precedenti, e ha una grande importanza nello scenario dell'analisi dei big data.
Il modello consigliato"ML-NPB-5660" per il mascheramento dei dati
4. Tecniche di mascheramento dei dati comunemente utilizzate
(1). Tecniche statistiche
Campionamento e aggregazione dei dati
- Campionamento dei dati: l'analisi e la valutazione del set di dati originale selezionando un sottoinsieme rappresentativo del set di dati è un metodo importante per migliorare l'efficacia delle tecniche di deidentificazione.
- Aggregazione dei dati: come raccolta di tecniche statistiche (come somma, conteggio, media, massimo e minimo) applicate agli attributi nei microdati, il risultato è rappresentativo di tutti i record nel set di dati originale.
(2). Crittografia
La crittografia è un metodo comune per desensibilizzare o migliorare l'efficacia della desensibilizzazione. Diversi tipi di algoritmi di crittografia possono ottenere diversi effetti di desensibilizzazione.
- Crittografia deterministica: una crittografia simmetrica non casuale. Di solito elabora i dati dell'ID e può decrittografare e ripristinare il testo cifrato nell'ID originale quando necessario, ma la chiave deve essere adeguatamente protetta.
- Crittografia irreversibile: per l'elaborazione dei dati viene utilizzata la funzione hash, che di solito viene utilizzata per i dati identificativi. Non può essere decrittografato direttamente e la relazione di mappatura deve essere salvata. Inoltre, a causa della funzionalità della funzione hash, potrebbe verificarsi una collisione dei dati.
- Crittografia omomorfa: viene utilizzato l'algoritmo omomorfico del testo cifrato. La sua caratteristica è che il risultato dell'operazione sul testo cifrato è lo stesso di quello dell'operazione sul testo in chiaro dopo la decrittazione. Pertanto, viene comunemente utilizzato per elaborare campi numerici, ma non è ampiamente utilizzato per motivi di prestazioni.
(3). Tecnologia di sistema
La tecnologia di soppressione cancella o protegge gli elementi di dati che non soddisfano la protezione della privacy, ma non li pubblica.
- Mascheramento: si riferisce al metodo di desensibilizzazione più comune per mascherare il valore di un attributo, come il numero dell'avversario, la carta d'identità contrassegnata da un asterisco o l'indirizzo troncato.
- Soppressione locale: si riferisce al processo di eliminazione di valori di attributi specifici (colonne), rimuovendo campi dati non essenziali;
- Soppressione dei record: si riferisce al processo di eliminazione di record specifici (righe), eliminando i record di dati non essenziali.
(4). Tecnologia degli pseudonimi
Lo pseudomanning è una tecnica di deidentificazione che utilizza uno pseudonimo per sostituire un identificatore diretto (o altro identificatore sensibile). Le tecniche di pseudonimo creano identificatori univoci per ogni singolo soggetto interessato, invece di identificatori diretti o sensibili.
- Può generare valori casuali in modo indipendente per corrispondere all'ID originale, salvare la tabella di mappatura e controllare rigorosamente l'accesso alla tabella di mappatura.
- È inoltre possibile utilizzare la crittografia per produrre pseudonimi, ma è necessario conservare correttamente la chiave di decrittografia;
Questa tecnologia è ampiamente utilizzata nel caso di un gran numero di utenti di dati indipendenti, come OpenID nello scenario della piattaforma aperta, dove diversi sviluppatori ottengono OpenID diversi per lo stesso utente.
(5). Tecniche di generalizzazione
La tecnica di generalizzazione si riferisce a una tecnica di deidentificazione che riduce la granularità degli attributi selezionati in un set di dati e fornisce una descrizione più generale e astratta dei dati. La tecnologia di generalizzazione è facile da implementare e può proteggere l'autenticità dei dati a livello di record. Viene comunemente utilizzato nei prodotti di dati o nei report di dati.
- Arrotondamento: comporta la selezione di una base di arrotondamento per l'attributo selezionato, ad esempio analisi forense verso l'alto o verso il basso, con risultati 100, 500, 1K e 10K
- Tecniche di codifica superiore e inferiore: sostituisci i valori sopra (o sotto) la soglia con una soglia che rappresenta il livello superiore (o inferiore), ottenendo il risultato "sopra X" o "sotto X"
(6). Tecniche di randomizzazione
Come una sorta di tecnica di deidentificazione, la tecnologia di randomizzazione si riferisce alla modifica del valore di un attributo attraverso la randomizzazione, in modo che il valore dopo la randomizzazione sia diverso dal valore reale originale. Questo processo riduce la capacità di un utente malintenzionato di ricavare un valore di attributo da altri valori di attributo nello stesso record di dati, ma influisce sull'autenticità dei dati risultanti, cosa comune con i dati di test di produzione.
Orario di pubblicazione: 27 settembre 2022