國家保密局網(wǎng)站>>保密科技

工業(yè)數(shù)據(jù)脫敏技術(shù)研究

2022年03月21日    來源:國家保密科技測評中心【字體: 打印

【摘 要】 隨著兩化融合不斷深入和工業(yè)互聯(lián)的加速發(fā)展,工業(yè)領(lǐng)域開放互聯(lián)程度不斷提高。工業(yè)控制系統(tǒng)、生產(chǎn)信息系統(tǒng)等工業(yè)領(lǐng)域重要信息基礎(chǔ)設(shè)施產(chǎn)生的數(shù)據(jù)潛藏著大量敏感信息,具有巨大價值,一旦發(fā)生數(shù)據(jù)安全事件將可能造成難以估量的損失。為提高工業(yè)數(shù)據(jù)安全,保障敏感信息不被泄露,本文分析了當(dāng)前工業(yè)數(shù)據(jù)脫敏現(xiàn)狀,研究提出工業(yè)數(shù)據(jù)脫敏方案,為企業(yè)保障工業(yè)數(shù)據(jù)安全提供借鑒。

【關(guān)鍵詞】 工業(yè)數(shù)據(jù) 敏感數(shù)據(jù) 數(shù)據(jù)脫敏

1 引言

新一代信息技術(shù)與工業(yè)領(lǐng)域的融合發(fā)展,推動了工業(yè)數(shù)據(jù)的流通共享。但敏感的工業(yè)數(shù)據(jù)若遭到篡改、竊取等,將會威脅工業(yè)生產(chǎn)、社會穩(wěn)定乃至國家安全。因此,迫切需要針對當(dāng)前工業(yè)數(shù)據(jù)脫敏現(xiàn)狀,研究提出工業(yè)數(shù)據(jù)脫敏方案,對工業(yè)數(shù)據(jù)進行脫敏、審計和管理,支撐構(gòu)建“可識別、可防護、可處置、可管理”的工業(yè)數(shù)據(jù)安全防護體系。

2 工業(yè)數(shù)據(jù)脫敏難點

2.1 工業(yè)數(shù)據(jù)脫敏現(xiàn)狀分析

在數(shù)據(jù)脫敏實踐方面,目前國內(nèi)重點行業(yè)企業(yè)已意識到工業(yè)數(shù)據(jù)安全的重要性,但在數(shù)據(jù)采集、傳輸、存儲、處理、交換共享等環(huán)節(jié),存在未進行有效的數(shù)據(jù)脫敏、直接使用原始敏感數(shù)據(jù)等現(xiàn)象。

在脫敏技術(shù)方面,工業(yè)企業(yè)使用的數(shù)據(jù)脫敏工具雖然具備一定的數(shù)據(jù)脫敏功能,但在技術(shù)細節(jié)方面仍有不足。一方面,內(nèi)置的數(shù)據(jù)脫敏算法較為單一,支持的數(shù)據(jù)源類型較少,無法滿足多種場景下多類型工業(yè)數(shù)據(jù)脫敏后的開發(fā)和測試使用;另一方面,數(shù)據(jù)脫敏工具在工業(yè)數(shù)據(jù)分類分級、敏感數(shù)據(jù)自動識別等方面的應(yīng)用尚不成熟,脫敏算法、脫敏效率、脫敏機制等都有待提高。此外,部分數(shù)據(jù)脫敏工具不具備多維可視化功能,相關(guān)技術(shù)人員無法通過任務(wù)狀態(tài)、任務(wù)進度條、脫敏報告等自動獲取工業(yè)數(shù)據(jù)脫敏的即時情況。

2.2 工業(yè)數(shù)據(jù)脫敏難點分析

工業(yè)數(shù)據(jù)脫敏存在以下難點:一是工業(yè)數(shù)據(jù)種類多、格式多,導(dǎo)致工業(yè)數(shù)據(jù)脫敏需針對性解決海量、多源、異構(gòu)等問題;二是工業(yè)數(shù)據(jù)間邏輯關(guān)系強,數(shù)據(jù)從產(chǎn)生到使用與產(chǎn)品生命周期密切相關(guān),關(guān)聯(lián)分析準(zhǔn)確性要求較高等,增加了工業(yè)數(shù)據(jù)脫敏技術(shù)難度;三是工業(yè)數(shù)據(jù)實時性、連續(xù)性等特點,以及工業(yè)時序數(shù)據(jù)的高維度、關(guān)系依賴性強特征使得工業(yè)數(shù)據(jù)的動態(tài)脫敏難度大。

3 工業(yè)數(shù)據(jù)脫敏方案

3.1 數(shù)據(jù)脫敏業(yè)務(wù)流程

數(shù)據(jù)脫敏業(yè)務(wù)流程主要包括敏感數(shù)據(jù)梳理、敏感數(shù)據(jù)識別、脫敏算法選擇、脫敏任務(wù)執(zhí)行、脫敏結(jié)果輸出5個步驟,如圖1所示。

3.1.1 敏感數(shù)據(jù)梳理

為使工業(yè)數(shù)據(jù)能夠安全共享使用,充分發(fā)揮其價值,首先需要梳理出其中的敏感數(shù)據(jù),并進行有效脫敏后再流通共享,確保敏感數(shù)據(jù)不被泄露或篡改。

3.1.2 敏感數(shù)據(jù)識別

敏感數(shù)據(jù)識別是數(shù)據(jù)脫敏的前提和關(guān)鍵。本文研究提出基于機器學(xué)習(xí)的工業(yè)敏感數(shù)據(jù)識別框架,如圖2所示。該識別框架通過從已標(biāo)注的數(shù)據(jù)集中提取特征屬性,利用機器學(xué)習(xí)的方法構(gòu)建識別模型,從而達到識別未知數(shù)據(jù)集的目的。相比傳統(tǒng)的數(shù)據(jù)識別方法而言,該識別框架可支持多種機器學(xué)習(xí)算法,具有性能卓越、兼容性強等優(yōu)勢。

3.1.3 脫敏算法選擇

依據(jù)不同的工業(yè)數(shù)據(jù)的類型、特征及脫敏需求,選取不同的數(shù)據(jù)脫敏算法,所采用的數(shù)據(jù)脫敏算法一般包括泛化、變形、遮蔽、隨機、替換、強加密和格式保留加密等。

3.1.4 脫敏任務(wù)執(zhí)行

脫敏任務(wù)執(zhí)行過程應(yīng)支持任務(wù)的啟動、暫停、中斷、延續(xù)、終止等操作。

3.1.5 脫敏結(jié)果輸出

依據(jù)上述脫敏流程,輸出工業(yè)數(shù)據(jù)脫敏結(jié)果。

3.2 數(shù)據(jù)脫敏步驟

基于工業(yè)數(shù)據(jù)具有實時產(chǎn)生及動態(tài)增加等特征,相較于傳統(tǒng)的數(shù)據(jù)脫敏技術(shù)而言,批量數(shù)據(jù)脫敏技術(shù)可支持多種類型數(shù)據(jù)庫,且能一次性輕量級處理數(shù)據(jù),更能滿足工業(yè)數(shù)據(jù)脫敏需求。因此,本文選擇Sqoop技術(shù)對工業(yè)數(shù)據(jù)進行脫敏處理。具體脫敏流程可分為3個步驟,如圖3所示。

(1)數(shù)據(jù)抽取:工業(yè)數(shù)據(jù)可利用Sqoop技術(shù)從Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等常用數(shù)據(jù)庫,TimescaleDB、KairosDB等時序數(shù)據(jù)庫,以及文件、FTP等接口進行抽取。數(shù)據(jù)抽取過程可保證原始數(shù)據(jù)的完整性,還可保證數(shù)據(jù)之間的邏輯關(guān)系完整。

(2)數(shù)據(jù)脫敏:通過數(shù)據(jù)脫敏算法庫中的脫敏算法實現(xiàn)對敏感數(shù)據(jù)的轉(zhuǎn)換,在脫敏過程中要保持數(shù)據(jù)的關(guān)聯(lián)性和完整性,確保數(shù)據(jù)在同一系統(tǒng)中的一致性。

(3)數(shù)據(jù)分發(fā):工業(yè)數(shù)據(jù)脫敏后,通過數(shù)據(jù)庫、文件、FTP等接口進行分發(fā)。

3.3 數(shù)據(jù)脫敏規(guī)則

數(shù)據(jù)脫敏規(guī)則主要包括可恢復(fù)規(guī)則和不可恢復(fù)規(guī)則?苫謴(fù)規(guī)則是指可通過某種方式恢復(fù)原始數(shù)據(jù)的規(guī)則,如各類加解密規(guī)則。不可恢復(fù)規(guī)則是指使用任何方法都無法恢復(fù)原始數(shù)據(jù)的規(guī)則。對于工業(yè)數(shù)據(jù)而言,需要從數(shù)據(jù)的重要程度、用途、影響范圍等多種維度綜合確定數(shù)據(jù)脫敏規(guī)則。

3.4 數(shù)據(jù)脫敏系統(tǒng)

3.4.1 數(shù)據(jù)脫敏系統(tǒng)總體架構(gòu)

工業(yè)數(shù)據(jù)脫敏系統(tǒng)通過采集SCADA、PLC、DCS、ERP等系統(tǒng),以及工業(yè)主機、數(shù)據(jù)庫等軟硬件設(shè)備的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理過程,利用敏感數(shù)據(jù)識別與數(shù)據(jù)脫敏引擎實現(xiàn)對敏感數(shù)據(jù)的深度分析和脫敏處理。該系統(tǒng)通過設(shè)置脫敏算法選擇和脫敏任務(wù)執(zhí)行子模塊,可以實現(xiàn)靈活配置的目的。無論是針對已有還是新上的工業(yè)數(shù)據(jù)脫敏業(yè)務(wù),該系統(tǒng)都能提供一套合適的數(shù)據(jù)脫敏方案。

3.4.2 數(shù)據(jù)脫敏系統(tǒng)功能

數(shù)據(jù)脫敏系統(tǒng)功能包括敏感數(shù)據(jù)梳理、敏感數(shù)據(jù)識別、脫敏算法選擇、脫敏任務(wù)執(zhí)行及安全管理5個模塊功能,如圖4所示。

(1)敏感數(shù)據(jù)梳理

數(shù)據(jù)脫敏系統(tǒng)應(yīng)內(nèi)置完善的敏感數(shù)據(jù)特征庫,支持包括

Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等主流數(shù)據(jù)庫、TimescaleDB、KairosDB等時序數(shù)據(jù)庫的接入,并可支持自定義數(shù)據(jù)庫類型。

(2)敏感數(shù)據(jù)識別

數(shù)據(jù)脫敏系統(tǒng)應(yīng)支持敏感數(shù)據(jù)的自動發(fā)現(xiàn)和識別,并且應(yīng)配置多種識別策略。

(3)脫敏算法選擇

數(shù)據(jù)脫敏系統(tǒng)應(yīng)支持多種脫敏算法并應(yīng)具備完善的脫敏規(guī)則,以實現(xiàn)對不同業(yè)務(wù)系統(tǒng)、不同數(shù)據(jù)庫的脫敏操作。數(shù)據(jù)脫敏系統(tǒng)應(yīng)設(shè)置專門的脫敏算法管理模塊,內(nèi)置包括數(shù)據(jù)替換、泛化、有損、混洗等常用的數(shù)據(jù)脫敏算法,基于機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法的智能化脫敏算法,以及自定義脫敏算法,便于新業(yè)務(wù)應(yīng)用或系統(tǒng)升級。此外,數(shù)據(jù)脫敏系統(tǒng)還應(yīng)具備相對獨立的脫敏規(guī)則管理模塊,包括可恢復(fù)性規(guī)則和不可恢復(fù)性規(guī)則等。

(4)脫敏任務(wù)執(zhí)行

數(shù)據(jù)脫敏系統(tǒng)應(yīng)具備完善的任務(wù)調(diào)度功能,包括狀態(tài)監(jiān)控、調(diào)試配置、參數(shù)管理、進度執(zhí)行、時間調(diào)用、命令行調(diào)用等。

(5)安全管理

數(shù)據(jù)脫敏系統(tǒng)應(yīng)具備完善的安全管理模塊,包括系統(tǒng)安全管理、用戶權(quán)限管理和安全審計等。

4 結(jié)語

工業(yè)數(shù)據(jù)脫敏技術(shù)是數(shù)據(jù)脫敏與制造業(yè)相結(jié)合的技術(shù)產(chǎn)物,是工業(yè)企業(yè)、平臺企業(yè)等保護工業(yè)數(shù)據(jù)安全的重要技術(shù)手段。工業(yè)數(shù)據(jù)不僅包含工業(yè)生產(chǎn)圖紙、機理模型文件、指令代碼等,還包括大量的時序數(shù)據(jù)。如何面向工業(yè)時序數(shù)據(jù)進行脫敏處理成為工業(yè)數(shù)據(jù)脫敏技術(shù)須解決的難題。期待在不遠的將來,工業(yè)數(shù)據(jù)脫敏技術(shù)在現(xiàn)有工業(yè)數(shù)據(jù)脫敏方案的基礎(chǔ)上,可實現(xiàn)針對性更強、擴展性更好的功能。

 

 

(原載于《保密科學(xué)技術(shù)》2021年4月刊)