為給定任務生成合成匿名數據的方法和系統技術方案

技術編號：27484578 閱讀：19 留言：0更新日期：2021-03-02 17:58

公開了用于生成合成匿名數據的方法和系統，該方法包括：提供待匿名的第一數據；提供包括數據特征的數據嵌入，其中，數據特征使得能夠表示對應的數據，并且其中，數據表示第一數據；提供包括可識別特征的標識符嵌入，其中，可識別特征使得能夠識別數據和第一數據；提供包括任務特定特征的任務特定嵌入，其中，任務特定特征使得能夠解纏結與給定任務相關的不同類別；生成合成匿名數據，該生成包括使用樣本的生成過程，該樣本包括來自數據嵌入的第一采樣以及來自任務特定嵌入的第二采樣，第一采樣確保對應的第一樣本源自遠離標識符嵌入中的數據和第一數據的投影，第二采樣確保對應的第二樣本源于接近的任務特定特征，并且其中，該生成在生成過程中還混合第一樣本和第二樣本。生成在生成過程中還混合第一樣本和第二樣本。生成在生成過程中還混合第一樣本和第二樣本。

全部詳細技術資料下載

【技術實現步驟摘要】
【國外來華專利技術】為給定任務生成合成匿名數據的方法和系統

[0001]本專利技術涉及數據處理。更具體地，本專利技術涉及為給定任務生成合成匿名數據(anonymized data)的方法和系統。

技術介紹

[0002]出于各種原因，能夠提供匿名數據備受關注。
[0003]最近，作為統計方法的一部分，引入了AI方法，保護敏感信息或數據所有者的身份對于確保個人和組織的隱私至關重要。
[0004]具體而言，共享臨床研究中的個體水平數據仍然具有挑戰性。現狀經常要求科學家在共享數據之前建立正式的合作關系并執行廣泛的數據使用協議。這些要求減緩了甚至阻礙了除最緊密合作之外的所有研究人員之間的數據共享，這是嚴重的缺陷。
[0005]最近的舉措已開始圍繞數據共享解決文化挑戰。近年來，許多包含有關個體敏感信息的數據集已經發布到公共領域，以便促進數據挖掘研究。經常通過簡單地抑制顯示用戶身份的標識符(例如名稱或身份號碼)來匿名化數據庫。
[0006]不同的處理(https：//arxiv.org/pdf/1802.09386.pdf；https：//arxiv.org/pdf/1803.11556.pdf；https：//www.biorxiv.org/content/biorxiv/early/2017/07/05/159756.full.pdf；https：//openreview.net/forum？id＝rJv4XWZA-)在數據匿名化過程中具有重要價值，以增強訓練數據(參見使用GAN進行合成數據增強以改善肝臟病變分類h...

【技術保護點】

【技術特征摘要】
【國外來華專利技術】1.一種為給定任務生成合成匿名數據的方法，所述方法包括：提供待匿名的第一數據；提供包括數據特征的數據嵌入，其中，所述數據特征使得能夠表示對應的數據，并且其中，所述數據表示所述第一數據；提供包括可識別特征的標識符嵌入，其中，所述可識別特征使得能夠識別所述數據和所述第一數據；提供包括適合于任務的任務特定特征的任務特定嵌入，其中，所述任務特定特征使得能夠解纏結與給定任務相關的不同類別；為所述給定任務生成合成匿名數據，其中，所述生成包括使用樣本的生成過程，所述樣本包括來自所述數據嵌入的第一采樣以及來自所述任務特定嵌入的第二采樣，所述第一采樣確保對應的第一樣本源自遠離所述標識符嵌入中的所述數據和所述第一數據的投影，所述第二采樣確保對應的第二樣本源于接近的所述任務特定特征，并且其中，所述生成在所述生成過程中還混合所述第一樣本和所述第二樣本以創建生成的所述合成匿名數據；以及為所述給定任務提供生成的所述合成匿名數據。2.根據權利要求1所述的方法，其中，為所述給定任務生成所述合成匿名數據包括：針對給定度量檢查所述合成匿名數據不同于待匿名的所述第一數據；此外，其中，如果所述檢查成功，則為所述給定任務提供生成的所述合成匿名數據。3.根據權利要求1至2中任一項所述的方法，其中，所述第一數據包括患者數據。4.根據權利要求1至3中任一項所述的方法，其中，提供包括適合于所述任務的所述任務特定特征的所述任務特定嵌入包括：獲得所述給定任務的指示；獲得與所述給定任務相關的類別的指示；獲得適合于為所述給定任務執行所述數據的解纏結的模型；以及使用獲得的所述模型、與所述給定任務相關的類別的指示、所述給定任務的指示和所述數據，來生成所述任務特定嵌入。5.根據權利要求1至4中任一項所述的方法，其中，提供包括所述可識別特征的所述標識符嵌入包括：獲得用于標識所述可識別特征的數據；獲得適合于識別所述數據中所述可識別特征的模型；獲得可識別實體的指示；以及使用適合于識別所述可識別特征的所述模型、所述可識別實體的指示以及用于標識所述可識別特征的數據，來生成所述標識符嵌入。6.根據權利要求5所述的方法，其中，所述數據包括用于標識所述可識別特征的所述數據。7.根據權利要求5所述的方法，其中，適合于識別所述數據中所述可識別特征的所述模型包括單發多箱檢測器(SSD)模型。8.根據權利要求4所述的方法，其中，適合于為所述給定任務執行所述數據的解纏結的所述模型包括在有監督、半監督和無監督訓練之一中的一個對抗學習混合模型(AMM)。9.根據權...

【專利技術屬性】
技術研發人員：弗洛倫特，
申請(專利權)人：映佳控制公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術