• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    識別敏感信息的方法及裝置制造方法及圖紙

    技術(shù)編號:15690846 閱讀:84 留言:0更新日期:2017-06-24 03:34
    本發(fā)明專利技術(shù)實施例公開了一種識別敏感信息的方法,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。本發(fā)明專利技術(shù)還相應地公開了一種識別敏感信息的裝置。上述識別敏感信息的方法和裝置在對用戶發(fā)布的內(nèi)容是否為敏感信息的判定上具有較高的識別準確率。

    Method and device for identifying sensitive information

    The embodiment of the invention discloses a method, a recognition of sensitive information: receiving target information extraction contains information of the target text in the text information; hash values in the hash hash the text information value and preset value of feature sensitive information is not at the same time, the text get the word segmentation information collection; the hash computation in the set value of the word segmentation, word segmentation according to the similarity of the hash value generated in the set of the target information with the preset feature sensitive information; according to the similarity degree and / or the text information analysis to determine the target information for sensitive information. The invention also discloses a device for identifying sensitive information accordingly. The method and device for identifying sensitive information has higher recognition accuracy in judging whether the content issued by the user is sensitive information.

    【技術(shù)實現(xiàn)步驟摘要】
    識別敏感信息的方法及裝置
    本專利技術(shù)涉及計算機
    ,尤其涉及一種識別敏感信息的方法及裝置。
    技術(shù)介紹
    在現(xiàn)有的web2.0的互聯(lián)網(wǎng)社交應用中,應用的內(nèi)容不再由服務器發(fā)布和推送,而是更多的由用戶自行發(fā)布和交互。例如,用戶可通過手機拍照分享到網(wǎng)絡上發(fā)送給其他用戶,可以編輯論壇主題、博客、論壇發(fā)帖、微博等文本內(nèi)容分享給其他用戶。然而,用戶分享的內(nèi)容可能存在違法或者不符合道德規(guī)范的風險,例如,粗口、暴力、淫穢、詐騙等內(nèi)容,因此,需要對用戶發(fā)布的內(nèi)容進行敏感信息的識別和攔截。現(xiàn)有的在線攔截敏感信息的方法中,通常采用較單一的文本相似算法策略如全文md5相似來發(fā)現(xiàn)攔截敏感信息,雖然這種方法準確率非常高,但是敏感信息的召回率嚴重依賴于已有的敏感信息特征庫的規(guī)模,并且敏感信息極容易出現(xiàn)變種,這種相似算法很難有效的發(fā)現(xiàn)相似的文本消息,對敏感信息的發(fā)現(xiàn)召回率低,且僅通過人工添加敏感信息特征的方法具有一定的時間滯后性,很難解決消息變種問題。因此,傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高,對于變種和近似的敏感信息無法準確地識別。
    技術(shù)實現(xiàn)思路
    基于此,為傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高的技術(shù)問題,特提供了一種識別敏感信息的方法。一種識別敏感信息的方法,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。在其中一個實施例中,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述提取所述目標信息中包含的文本信息的步驟之后還包括:在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。在其中一個實施例中,所述計算所述文本信息的哈希值的步驟之后還包括:在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。在其中一個實施例中,所述根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息的步驟還包括:根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。在其中一個實施例中,所述根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息的步驟之后還包括:若所述目標信息被判定為敏感信息,則將所述目標信息作為特征敏感信息存儲。在其中一個實施例中,所述提取所述目標信息中包含的文本信息的步驟之后還包括:過濾掉所述文本信息中的符號信息和冗余語義信息。此外,為傳統(tǒng)技術(shù)中的在線攔截敏感信息的方法由于人工添加敏感信息特征具有一定的時間滯后性的原因,使得識別敏感信息的準確度不高的技術(shù)問題,特提供了一種識別敏感信息的裝置。一種識別敏感信息的裝置,包括:文本信息提取模塊,用于接收目標信息,提取所述目標信息中包含的文本信息;全文哈希識別模塊,用于計算所述文本信息的哈希值;分詞模塊,用于在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;相似度計算模塊,用于計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;敏感信息判定模塊,用于根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。在其中一個實施例中,所述相似度計算模塊還用于計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述相似度計算模塊還用于結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。在其中一個實施例中,所述裝置還包括行為識別模塊,用于在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。在其中一個實施例中,所述全文哈希識別模塊還用于在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。在其中一個實施例中,所述裝置還包括語義識別模塊,用于根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;所述敏感信息判定模塊還用于根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。在其中一個實施例中,所述語義識別模塊還用于在所述目標信息被判定為敏感信息時,則將所述目標信息作為特征敏感信息存儲。在其中一個實施例中,所述文本信息提取模塊還用于過濾掉所述文本信息中的符號信息和冗余語義信息。實施本專利技術(shù)實施例,將具有如下有益效果:采用了上述識別敏感信息的方法和裝置之后,先計算輸入的目標信息中的文本信息的哈希值,進行全文哈希比對,使得在目標信息與特征庫中的特征敏感信息不完全一致時,可通過對目標信息分詞并計算分詞的哈希值得到目標信息與特征庫中的特征敏感信息的相似度,然后結(jié)合對目標信息進行語義分析的分析結(jié)果來判定目標信息是否為敏感信息,從而在進行敏感信息的判定時,采用了多種手段,同時結(jié)合了全文哈希比對,相似度比對和語義比對的方式,和傳統(tǒng)技術(shù)相比,即使在目標信息與特征敏感信息不完全相同的情況下,也能夠識別出近似的或者變種的敏感信息而不會漏判,從而提高了識別的準確度。附圖說明為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。本文檔來自技高網(wǎng)...
    識別敏感信息的方法及裝置

    【技術(shù)保護點】
    一種識別敏感信息的方法,其特征在于,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。

    【技術(shù)特征摘要】
    1.一種識別敏感信息的方法,其特征在于,包括:接收目標信息,提取所述目標信息中包含的文本信息;計算所述文本信息的哈希值,在所述文本信息的哈希值與預設的特征敏感信息的哈希值不同時,對所述文本信息進行分詞得到分詞集合;計算所述分詞集合中的分詞的哈希值,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度;根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息。2.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:計算所述分詞集合中,與預設的特征敏感信息的分詞的哈希值匹配的分詞在所述分詞集合中所占的比例;根據(jù)所述比例生成所述目標信息與預設的特征敏感信息的相似度。3.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息與預設的特征敏感信息的相似度的步驟包括:結(jié)合simhash算法,根據(jù)所述分詞集合中的分詞的哈希值生成所述目標信息的第一simhash值;計算所述第一simhash值與所述預設的特征敏感信息的第二simhash值的差值;根據(jù)所述差值生成所述目標信息與預設的特征敏感信息的相似度。4.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述提取所述目標信息中包含的文本信息的步驟之后還包括:在所述目標信息中不包含文本信息時,獲取發(fā)布所述目標信息的用戶標識;獲取所述用戶標識的行為特征數(shù)據(jù),根據(jù)所述行為特征數(shù)據(jù)判定所述目標信息是否為敏感信息。5.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述計算所述文本信息的哈希值的步驟之后還包括:在所述文本信息的哈希值與預設的特征敏感信息的哈希值相同時,判定所述目標信息為敏感信息。6.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述相似度和/或?qū)λ鑫谋拘畔⑦M行語義分析判定所述目標信息為敏感信息的步驟還包括:根據(jù)預設的機器學習概率模型提取所述文本信息的文本特征;將所述文本特征作為輸入,根據(jù)所述預設的機器學習概率模型通過計算所述目標信息的敏感置信度對所述文本信息進行語義分析;根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息。7.根據(jù)權(quán)利要求6所述的一種識別敏感信息的方法,其特征在于,所述根據(jù)所述相似度和/或敏感置信度判定所述目標信息是否為敏感信息的步驟之后還包括:若所述目標信息被判定為敏感信息,則將所述目標信息作為特征敏感信息存儲。8.根據(jù)權(quán)利要求1所述的一種識別敏感信息的方法,其特征在于,所述提取所述目標信息中包含的文本信息的步驟之后還包括:過濾...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:付星輝
    申請(專利權(quán))人:騰訊科技深圳有限公司
    類型:發(fā)明
    國別省市:廣東,44

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 伊人久久一区二区三区无码| 一本久道中文无码字幕av| 毛片一区二区三区无码| 亚洲精品9999久久久久无码| 无码人妻丰满熟妇区五十路| 无码丰满熟妇一区二区| 亚洲精品无码mv在线观看网站| 在人线av无码免费高潮喷水| 中文字幕无码不卡在线| 白嫩少妇激情无码| 亚洲熟妇无码八AV在线播放| 国产精品无码亚洲一区二区三区 | 亚洲Av无码精品色午夜| 亚洲AV无码专区国产乱码不卡| 亚洲人成影院在线无码按摩店| 久久亚洲中文无码咪咪爱| 久久亚洲精品无码VA大香大香| 一级毛片中出无码| 人妻丰满?V无码久久不卡| 少妇人妻偷人精品无码视频新浪| 精品亚洲成α人无码成α在线观看| 亚洲GV天堂GV无码男同 | 无码精品A∨在线观看| 中文无码乱人伦中文视频在线V | 亚洲爆乳无码专区www| 色窝窝无码一区二区三区成人网站| 极品粉嫩嫩模大尺度无码视频| HEYZO无码中文字幕人妻| 亚洲中文字幕无码av永久| 亚洲av永久无码精品三区在线4| 久久久久琪琪去精品色无码| 日韩va中文字幕无码电影| 精品国产毛片一区二区无码| 人妻少妇无码视频在线| 亚洲?V无码乱码国产精品| 国产成人无码a区在线视频| 无码日韩精品一区二区人妻| 亚洲AV无码专区日韩| 人妻系列AV无码专区| 久久亚洲精品无码| av大片在线无码免费|