國(guó)家保密局網(wǎng)站>>保密科技

工業(yè)數(shù)據(jù)脫敏技術(shù)研究

2022年03月21日    來源:國(guó)家保密科技測(cè)評(píng)中心【字體: 打印

【摘 要】 隨著兩化融合不斷深入和工業(yè)互聯(lián)的加速發(fā)展,工業(yè)領(lǐng)域開放互聯(lián)程度不斷提高。工業(yè)控制系統(tǒng)、生產(chǎn)信息系統(tǒng)等工業(yè)領(lǐng)域重要信息基礎(chǔ)設(shè)施產(chǎn)生的數(shù)據(jù)潛藏著大量敏感信息,具有巨大價(jià)值,一旦發(fā)生數(shù)據(jù)安全事件將可能造成難以估量的損失。為提高工業(yè)數(shù)據(jù)安全,保障敏感信息不被泄露,本文分析了當(dāng)前工業(yè)數(shù)據(jù)脫敏現(xiàn)狀,研究提出工業(yè)數(shù)據(jù)脫敏方案,為企業(yè)保障工業(yè)數(shù)據(jù)安全提供借鑒。

【關(guān)鍵詞】 工業(yè)數(shù)據(jù) 敏感數(shù)據(jù) 數(shù)據(jù)脫敏

1 引言

新一代信息技術(shù)與工業(yè)領(lǐng)域的融合發(fā)展,推動(dòng)了工業(yè)數(shù)據(jù)的流通共享。但敏感的工業(yè)數(shù)據(jù)若遭到篡改、竊取等,將會(huì)威脅工業(yè)生產(chǎn)、社會(huì)穩(wěn)定乃至國(guó)家安全。因此,迫切需要針對(duì)當(dāng)前工業(yè)數(shù)據(jù)脫敏現(xiàn)狀,研究提出工業(yè)數(shù)據(jù)脫敏方案,對(duì)工業(yè)數(shù)據(jù)進(jìn)行脫敏、審計(jì)和管理,支撐構(gòu)建“可識(shí)別、可防護(hù)、可處置、可管理”的工業(yè)數(shù)據(jù)安全防護(hù)體系。

2 工業(yè)數(shù)據(jù)脫敏難點(diǎn)

2.1 工業(yè)數(shù)據(jù)脫敏現(xiàn)狀分析

在數(shù)據(jù)脫敏實(shí)踐方面,目前國(guó)內(nèi)重點(diǎn)行業(yè)企業(yè)已意識(shí)到工業(yè)數(shù)據(jù)安全的重要性,但在數(shù)據(jù)采集、傳輸、存儲(chǔ)、處理、交換共享等環(huán)節(jié),存在未進(jìn)行有效的數(shù)據(jù)脫敏、直接使用原始敏感數(shù)據(jù)等現(xiàn)象。

在脫敏技術(shù)方面,工業(yè)企業(yè)使用的數(shù)據(jù)脫敏工具雖然具備一定的數(shù)據(jù)脫敏功能,但在技術(shù)細(xì)節(jié)方面仍有不足。一方面,內(nèi)置的數(shù)據(jù)脫敏算法較為單一,支持的數(shù)據(jù)源類型較少,無法滿足多種場(chǎng)景下多類型工業(yè)數(shù)據(jù)脫敏后的開發(fā)和測(cè)試使用;另一方面,數(shù)據(jù)脫敏工具在工業(yè)數(shù)據(jù)分類分級(jí)、敏感數(shù)據(jù)自動(dòng)識(shí)別等方面的應(yīng)用尚不成熟,脫敏算法、脫敏效率、脫敏機(jī)制等都有待提高。此外,部分?jǐn)?shù)據(jù)脫敏工具不具備多維可視化功能,相關(guān)技術(shù)人員無法通過任務(wù)狀態(tài)、任務(wù)進(jìn)度條、脫敏報(bào)告等自動(dòng)獲取工業(yè)數(shù)據(jù)脫敏的即時(shí)情況。

2.2 工業(yè)數(shù)據(jù)脫敏難點(diǎn)分析

工業(yè)數(shù)據(jù)脫敏存在以下難點(diǎn):一是工業(yè)數(shù)據(jù)種類多、格式多,導(dǎo)致工業(yè)數(shù)據(jù)脫敏需針對(duì)性解決海量、多源、異構(gòu)等問題;二是工業(yè)數(shù)據(jù)間邏輯關(guān)系強(qiáng),數(shù)據(jù)從產(chǎn)生到使用與產(chǎn)品生命周期密切相關(guān),關(guān)聯(lián)分析準(zhǔn)確性要求較高等,增加了工業(yè)數(shù)據(jù)脫敏技術(shù)難度;三是工業(yè)數(shù)據(jù)實(shí)時(shí)性、連續(xù)性等特點(diǎn),以及工業(yè)時(shí)序數(shù)據(jù)的高維度、關(guān)系依賴性強(qiáng)特征使得工業(yè)數(shù)據(jù)的動(dòng)態(tài)脫敏難度大。

3 工業(yè)數(shù)據(jù)脫敏方案

3.1 數(shù)據(jù)脫敏業(yè)務(wù)流程

數(shù)據(jù)脫敏業(yè)務(wù)流程主要包括敏感數(shù)據(jù)梳理、敏感數(shù)據(jù)識(shí)別、脫敏算法選擇、脫敏任務(wù)執(zhí)行、脫敏結(jié)果輸出5個(gè)步驟,如圖1所示。

3.1.1 敏感數(shù)據(jù)梳理

為使工業(yè)數(shù)據(jù)能夠安全共享使用,充分發(fā)揮其價(jià)值,首先需要梳理出其中的敏感數(shù)據(jù),并進(jìn)行有效脫敏后再流通共享,確保敏感數(shù)據(jù)不被泄露或篡改。

3.1.2 敏感數(shù)據(jù)識(shí)別

敏感數(shù)據(jù)識(shí)別是數(shù)據(jù)脫敏的前提和關(guān)鍵。本文研究提出基于機(jī)器學(xué)習(xí)的工業(yè)敏感數(shù)據(jù)識(shí)別框架,如圖2所示。該識(shí)別框架通過從已標(biāo)注的數(shù)據(jù)集中提取特征屬性,利用機(jī)器學(xué)習(xí)的方法構(gòu)建識(shí)別模型,從而達(dá)到識(shí)別未知數(shù)據(jù)集的目的。相比傳統(tǒng)的數(shù)據(jù)識(shí)別方法而言,該識(shí)別框架可支持多種機(jī)器學(xué)習(xí)算法,具有性能卓越、兼容性強(qiáng)等優(yōu)勢(shì)。

3.1.3 脫敏算法選擇

依據(jù)不同的工業(yè)數(shù)據(jù)的類型、特征及脫敏需求,選取不同的數(shù)據(jù)脫敏算法,所采用的數(shù)據(jù)脫敏算法一般包括泛化、變形、遮蔽、隨機(jī)、替換、強(qiáng)加密和格式保留加密等。

3.1.4 脫敏任務(wù)執(zhí)行

脫敏任務(wù)執(zhí)行過程應(yīng)支持任務(wù)的啟動(dòng)、暫停、中斷、延續(xù)、終止等操作。

3.1.5 脫敏結(jié)果輸出

依據(jù)上述脫敏流程,輸出工業(yè)數(shù)據(jù)脫敏結(jié)果。

3.2 數(shù)據(jù)脫敏步驟

基于工業(yè)數(shù)據(jù)具有實(shí)時(shí)產(chǎn)生及動(dòng)態(tài)增加等特征,相較于傳統(tǒng)的數(shù)據(jù)脫敏技術(shù)而言,批量數(shù)據(jù)脫敏技術(shù)可支持多種類型數(shù)據(jù)庫(kù),且能一次性輕量級(jí)處理數(shù)據(jù),更能滿足工業(yè)數(shù)據(jù)脫敏需求。因此,本文選擇Sqoop技術(shù)對(duì)工業(yè)數(shù)據(jù)進(jìn)行脫敏處理。具體脫敏流程可分為3個(gè)步驟,如圖3所示。

(1)數(shù)據(jù)抽。汗I(yè)數(shù)據(jù)可利用Sqoop技術(shù)從Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等常用數(shù)據(jù)庫(kù),TimescaleDB、KairosDB等時(shí)序數(shù)據(jù)庫(kù),以及文件、FTP等接口進(jìn)行抽取。數(shù)據(jù)抽取過程可保證原始數(shù)據(jù)的完整性,還可保證數(shù)據(jù)之間的邏輯關(guān)系完整。

(2)數(shù)據(jù)脫敏:通過數(shù)據(jù)脫敏算法庫(kù)中的脫敏算法實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的轉(zhuǎn)換,在脫敏過程中要保持?jǐn)?shù)據(jù)的關(guān)聯(lián)性和完整性,確保數(shù)據(jù)在同一系統(tǒng)中的一致性。

(3)數(shù)據(jù)分發(fā):工業(yè)數(shù)據(jù)脫敏后,通過數(shù)據(jù)庫(kù)、文件、FTP等接口進(jìn)行分發(fā)。

3.3 數(shù)據(jù)脫敏規(guī)則

數(shù)據(jù)脫敏規(guī)則主要包括可恢復(fù)規(guī)則和不可恢復(fù)規(guī)則?苫謴(fù)規(guī)則是指可通過某種方式恢復(fù)原始數(shù)據(jù)的規(guī)則,如各類加解密規(guī)則。不可恢復(fù)規(guī)則是指使用任何方法都無法恢復(fù)原始數(shù)據(jù)的規(guī)則。對(duì)于工業(yè)數(shù)據(jù)而言,需要從數(shù)據(jù)的重要程度、用途、影響范圍等多種維度綜合確定數(shù)據(jù)脫敏規(guī)則。

3.4 數(shù)據(jù)脫敏系統(tǒng)

3.4.1 數(shù)據(jù)脫敏系統(tǒng)總體架構(gòu)

工業(yè)數(shù)據(jù)脫敏系統(tǒng)通過采集SCADA、PLC、DCS、ERP等系統(tǒng),以及工業(yè)主機(jī)、數(shù)據(jù)庫(kù)等軟硬件設(shè)備的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理過程,利用敏感數(shù)據(jù)識(shí)別與數(shù)據(jù)脫敏引擎實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的深度分析和脫敏處理。該系統(tǒng)通過設(shè)置脫敏算法選擇和脫敏任務(wù)執(zhí)行子模塊,可以實(shí)現(xiàn)靈活配置的目的。無論是針對(duì)已有還是新上的工業(yè)數(shù)據(jù)脫敏業(yè)務(wù),該系統(tǒng)都能提供一套合適的數(shù)據(jù)脫敏方案。

3.4.2 數(shù)據(jù)脫敏系統(tǒng)功能

數(shù)據(jù)脫敏系統(tǒng)功能包括敏感數(shù)據(jù)梳理、敏感數(shù)據(jù)識(shí)別、脫敏算法選擇、脫敏任務(wù)執(zhí)行及安全管理5個(gè)模塊功能,如圖4所示。

(1)敏感數(shù)據(jù)梳理

數(shù)據(jù)脫敏系統(tǒng)應(yīng)內(nèi)置完善的敏感數(shù)據(jù)特征庫(kù),支持包括

Oracle、SQL Server、MySQL、Informix、PostgreSQL、DB2、Sybase、EDB等主流數(shù)據(jù)庫(kù)、TimescaleDB、KairosDB等時(shí)序數(shù)據(jù)庫(kù)的接入,并可支持自定義數(shù)據(jù)庫(kù)類型。

(2)敏感數(shù)據(jù)識(shí)別

數(shù)據(jù)脫敏系統(tǒng)應(yīng)支持敏感數(shù)據(jù)的自動(dòng)發(fā)現(xiàn)和識(shí)別,并且應(yīng)配置多種識(shí)別策略。

(3)脫敏算法選擇

數(shù)據(jù)脫敏系統(tǒng)應(yīng)支持多種脫敏算法并應(yīng)具備完善的脫敏規(guī)則,以實(shí)現(xiàn)對(duì)不同業(yè)務(wù)系統(tǒng)、不同數(shù)據(jù)庫(kù)的脫敏操作。數(shù)據(jù)脫敏系統(tǒng)應(yīng)設(shè)置專門的脫敏算法管理模塊,內(nèi)置包括數(shù)據(jù)替換、泛化、有損、混洗等常用的數(shù)據(jù)脫敏算法,基于機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法的智能化脫敏算法,以及自定義脫敏算法,便于新業(yè)務(wù)應(yīng)用或系統(tǒng)升級(jí)。此外,數(shù)據(jù)脫敏系統(tǒng)還應(yīng)具備相對(duì)獨(dú)立的脫敏規(guī)則管理模塊,包括可恢復(fù)性規(guī)則和不可恢復(fù)性規(guī)則等。

(4)脫敏任務(wù)執(zhí)行

數(shù)據(jù)脫敏系統(tǒng)應(yīng)具備完善的任務(wù)調(diào)度功能,包括狀態(tài)監(jiān)控、調(diào)試配置、參數(shù)管理、進(jìn)度執(zhí)行、時(shí)間調(diào)用、命令行調(diào)用等。

(5)安全管理

數(shù)據(jù)脫敏系統(tǒng)應(yīng)具備完善的安全管理模塊,包括系統(tǒng)安全管理、用戶權(quán)限管理和安全審計(jì)等。

4 結(jié)語

工業(yè)數(shù)據(jù)脫敏技術(shù)是數(shù)據(jù)脫敏與制造業(yè)相結(jié)合的技術(shù)產(chǎn)物,是工業(yè)企業(yè)、平臺(tái)企業(yè)等保護(hù)工業(yè)數(shù)據(jù)安全的重要技術(shù)手段。工業(yè)數(shù)據(jù)不僅包含工業(yè)生產(chǎn)圖紙、機(jī)理模型文件、指令代碼等,還包括大量的時(shí)序數(shù)據(jù)。如何面向工業(yè)時(shí)序數(shù)據(jù)進(jìn)行脫敏處理成為工業(yè)數(shù)據(jù)脫敏技術(shù)須解決的難題。期待在不遠(yuǎn)的將來,工業(yè)數(shù)據(jù)脫敏技術(shù)在現(xiàn)有工業(yè)數(shù)據(jù)脫敏方案的基礎(chǔ)上,可實(shí)現(xiàn)針對(duì)性更強(qiáng)、擴(kuò)展性更好的功能。

 

 

(原載于《保密科學(xué)技術(shù)》2021年4月刊)