公開了用于生成合成匿名數據的方法和系統,該方法包括:提供待匿名的第一數據;提供包括數據特征的數據嵌入,其中,數據特征使得能夠表示對應的數據,并且其中,數據表示第一數據;提供包括可識別特征的標識符嵌入,其中,可識別特征使得能夠識別數據和第一數據;提供包括任務特定特征的任務特定嵌入,其中,任務特定特征使得能夠解纏結與給定任務相關的不同類別;生成合成匿名數據,該生成包括使用樣本的生成過程,該樣本包括來自數據嵌入的第一采樣以及來自任務特定嵌入的第二采樣,第一采樣確保對應的第一樣本源自遠離標識符嵌入中的數據和第一數據的投影,第二采樣確保對應的第二樣本源于接近的任務特定特征,并且其中,該生成在生成過程中還混合第一樣本和第二樣本。生成在生成過程中還混合第一樣本和第二樣本。生成在生成過程中還混合第一樣本和第二樣本。
【技術實現步驟摘要】
【國外來華專利技術】為給定任務生成合成匿名數據的方法和系統
[0001]本專利技術涉及數據處理。更具體地,本專利技術涉及為給定任務生成合成匿名數據(anonymized data)的方法和系統。
技術介紹
[0002]出于各種原因,能夠提供匿名數據備受關注。
[0003]最近,作為統計方法的一部分,引入了AI方法,保護敏感信息或數據所有者的身份對于確保個人和組織的隱私至關重要。
[0004]具體而言,共享臨床研究中的個體水平數據仍然具有挑戰性。現狀經常要求科學家在共享數據之前建立正式的合作關系并執行廣泛的數據使用協議。這些要求減緩了甚至阻礙了除最緊密合作之外的所有研究人員之間的數據共享,這是嚴重的缺陷。
[0005]最近的舉措已開始圍繞數據共享解決文化挑戰。近年來,許多包含有關個體敏感信息的數據集已經發布到公共領域,以便促進數據挖掘研究。經常通過簡單地抑制顯示用戶身份的標識符(例如名稱或身份號碼)來匿名化數據庫。
[0006]不同的處理(https://arxiv.org/pdf/1802.09386.pdf;https://arxiv.org/pdf/1803.11556.pdf;https://www.biorxiv.org/content/biorxiv/early/2017/07/05/159756.full.pdf;https://openreview.net/forum?id=rJv4XWZA-)在數據匿名化過程中具有重要價值,以增強訓練數據(參見使用GAN進行合成數據增強以改善肝臟病變分類http://www.eng.biu.ac.il/goldbej/files/2018/01/ISBI_2018_Maayan.pdf)或共享主題數據,但是它們不具有以下兩個要求:(1)保證生成的數據不可識別(后臺攻擊,包括已知的攻擊,后驗,匿名數據非常適合的任務),以及(2)保證生成的數據與后續任務相關(解纏結特定任務變化的適當因素)。
[0007]需要能夠克服上述缺陷中的至少一個的方法和系統。
[0008]通過閱讀以下公開內容、附圖和本專利技術的描述,本專利技術的特征將顯而易見。
技術實現思路
[0009]根據廣泛的方面,公開了為給定任務生成合成匿名數據的方法,該方法包括:提供待匿名的第一數據;提供包括數據特征的數據嵌入,其中,數據特征使得能夠表示對應的數據,并且其中,數據表示第一數據;提供包括可識別特征的標識符嵌入,其中可識別特征使得能夠識別數據和第一數據;提供包括適合于任務的任務特定特征的任務特定嵌入,其中,任務特定特征使得能夠解纏結與給定任務相關的不同類別;為給定任務生成合成匿名數據,其中,該生成包括使用樣本的生成過程,該樣本包括來自數據嵌入的第一采樣以及來自任務特定嵌入的第二采樣,第一采樣確保對應的第一樣本源自遠離標識符嵌入中的數據和第一數據的投影,第二采樣確保對應的第二樣本源于接近的任務特定特征,并且其中,該生成在生成過程中進一步混合第一樣本和第二樣本以創建生成的合成匿名數據;以及為給定任務提供生成的合成匿名數據。
[0010]根據實施例,為給定任務生成合成匿名數據包括:針對給定度量檢查合成匿名數據不同于待匿名的第一數據,并且如果檢查成功,則為給定任務提供生成的合成匿名數據。
[0011]根據實施例,第一數據包括患者數據。
[0012]根據實施例,提供包括適合于任務的任務特定特征的任務特定嵌入包括:獲得給定任務的指示;獲得與給定任務相關的類別的指示;獲得適合于為給定任務執行數據解纏結的模型;以及使用獲得的模型、與給定任務相關的類別的指示、給定任務的指示和數據來生成任務特定嵌入。
[0013]根據實施例,提供具有可識別特征的標識符嵌入包括:獲得用于識別可識別特征的數據;獲得適合于識別數據中可識別特征的模型;獲得可識別實體的指示;以及使用適合于識別可識別特征的模型、可識別實體的指示以及用于識別可識別特征的數據來生成標識符嵌入。
[0014]根據實施例,數據包括用于識別可識別特征的數據。
[0015]根據實施例,適合于識別數據中的可識別特征的模型包括單發多箱檢測器(SSD)模型。
[0016]根據實施例,適合于執行用于給定任務的數據解纏結的模型包括:在有監督、半監督或無監督訓練的一項中的對抗學習混合模型(AMM)之一。
[0017]根據實施例,可識別實體的指示包括多個類別之一和與所述數據中的至少一個對應的類別的指示。
[0018]根據實施例,可識別實體的指示包括定位至少一個對應的可識別實體的至少一個箱。
[0019]根據廣泛的方面,公開了用于存儲計算機可執行指令的非暫時性計算機可讀存儲介質,該計算機可執行指令在被執行時使計算機執行為給定任務生成合成匿名數據的方法,該方法包括:提供待匿名的第一數據;提供包括數據特征的數據嵌入,其中,數據特征使得能夠表示對應的數據,并且其中,數據表示第一數據;提供包括可識別特征的標識符嵌入,其中,可識別特征使得能夠識別數據和第一數據;提供包括適合于任務的任務特定特征的任務特定嵌入,其中,任務特定特征使得能夠解纏結與給定任務相關的不同類別;為給定任務生成合成匿名數據,其中,該生成包括使用樣本的生成過程,該樣本包括來自數據嵌入的第一采樣以及來自任務特定嵌入的第二采樣,第一采樣確保對應的第一樣本源自遠離標識符嵌入中的數據和第一數據的投影,第二采樣確保對應的第二樣本源于接近的任務特定特征,并且其中,該生成在生成過程中進一步混合第一樣本和第二樣本以創建生成的合成匿名數據;以及為給定任務提供生成的合成匿名數據。
[0020]根據另一個廣泛的方面,公開了計算機,包括:中央處理單元;顯示設備;通信單元;存儲器單元,包括用于為給定任務生成合成匿名數據的應用程序,該應用程序包括提供待匿名的第一數據的指令、提供包括數據特征的數據嵌入的指令,其中,數據特征使得能夠表示對應的數據,并且其中,數據表示第一數據;提供包括可識別特征的標識符嵌入的指令,其中,可識別特征使得能夠識別數據和第一數據;提供包括適合于任務的任務特定特征的任務特定嵌入的指令,其中,任務特定特征使得能夠解纏結與給定任務相關的不同類別;為給定任務生成合成匿名數據的指令,其中,該生成包括使用樣本的生成過程,該樣本包括來自數據嵌入的第一采樣以及來自任務特定嵌入的第二采樣,第一采樣確保對應的第一樣
本源自遠離標識符嵌入中的數據和第一數據的投影,第二采樣確保對應的第二樣本源于接近的任務特定特征,并且其中,該生成在生成過程中進一步混合第一樣本和第二樣本以創建生成的合成匿名數據;以及為給定任務提供生成的合成匿名數據的指令。
[0021]一個目的是提供方法和系統,該方法和系統通過設計基于對數據中限定的一組可識別特征的修改來確保數據匿名化,以防止重新識別數據。
[0022]另一個目的是提供方法和系統,該方法和系統通過設計確保合成匿名數據傳達用于處理給定任務的匿名數據的合適表示。
[0023]出于各種原因,本文公開的方法具有很大的優勢。
[本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】1.一種為給定任務生成合成匿名數據的方法,所述方法包括:提供待匿名的第一數據;提供包括數據特征的數據嵌入,其中,所述數據特征使得能夠表示對應的數據,并且其中,所述數據表示所述第一數據;提供包括可識別特征的標識符嵌入,其中,所述可識別特征使得能夠識別所述數據和所述第一數據;提供包括適合于任務的任務特定特征的任務特定嵌入,其中,所述任務特定特征使得能夠解纏結與給定任務相關的不同類別;為所述給定任務生成合成匿名數據,其中,所述生成包括使用樣本的生成過程,所述樣本包括來自所述數據嵌入的第一采樣以及來自所述任務特定嵌入的第二采樣,所述第一采樣確保對應的第一樣本源自遠離所述標識符嵌入中的所述數據和所述第一數據的投影,所述第二采樣確保對應的第二樣本源于接近的所述任務特定特征,并且其中,所述生成在所述生成過程中還混合所述第一樣本和所述第二樣本以創建生成的所述合成匿名數據;以及為所述給定任務提供生成的所述合成匿名數據。2.根據權利要求1所述的方法,其中,為所述給定任務生成所述合成匿名數據包括:針對給定度量檢查所述合成匿名數據不同于待匿名的所述第一數據;此外,其中,如果所述檢查成功,則為所述給定任務提供生成的所述合成匿名數據。3.根據權利要求1至2中任一項所述的方法,其中,所述第一數據包括患者數據。4.根據權利要求1至3中任一項所述的方法,其中,提供包括適合于所述任務的所述任務特定特征的所述任務特定嵌入包括:獲得所述給定任務的指示;獲得與所述給定任務相關的類別的指示;獲得適合于為所述給定任務執行所述數據的解纏結的模型;以及使用獲得的所述模型、與所述給定任務相關的類別的指示、所述給定任務的指示和所述數據,來生成所述任務特定嵌入。5.根據權利要求1至4中任一項所述的方法,其中,提供包括所述可識別特征的所述標識符嵌入包括:獲得用于標識所述可識別特征的數據;獲得適合于識別所述數據中所述可識別特征的模型;獲得可識別實體的指示;以及使用適合于識別所述可識別特征的所述模型、所述可識別實體的指示以及用于標識所述可識別特征的數據,來生成所述標識符嵌入。6.根據權利要求5所述的方法,其中,所述數據包括用于標識所述可識別特征的所述數據。7.根據權利要求5所述的方法,其中,適合于識別所述數據中所述可識別特征的所述模型包括單發多箱檢測器(SSD)模型。8.根據權利要求4所述的方法,其中,適合于為所述給定任務執行所述數據的解纏結的所述模型包括在有監督、半監督和無監督訓練之一中的一個對抗學習混合模型(AMM)。9.根據權...
【專利技術屬性】
技術研發人員:弗洛倫特,
申請(專利權)人:映佳控制公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。