• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    檢測詞匯的方法與裝置制造方法及圖紙

    技術編號:8271491 閱讀:184 留言:0更新日期:2013-01-31 03:44
    本發明專利技術提供一種檢測詞匯的方法與裝置,方法包括:步驟a:提取待檢測文本中的待檢測字符;步驟b:判斷待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟c,否則轉為步驟d;步驟c:提取待檢測文本中與待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b;步驟d:將待檢測字符作為待組合字符,存儲到緩存區;步驟e:根據緩存區中各待組合字符獲取待檢測詞匯;步驟f:判斷待檢測詞匯是否為敏感詞。根據本發明專利技術的檢測詞匯的方法與裝置,能夠通過去除待檢測文本中的干擾詞匯以有效判斷敏感詞。

    【技術實現步驟摘要】
    本專利技術涉及字符校對技術,尤其涉及一種檢測詞匯的方法與裝置
    技術介紹
    隨著信息的爆炸式增長,信息傳遞途徑越來越多樣化,例如可以通過論壇、短信、微博和聊天工具等多種方式傳遞文本信息。為了防止不良信息的傳播,需要對文本信息進行過濾,達到凈化信息的目的。目前對文本信息進行過濾的方式一般是檢測并屏蔽敏感詞,即采用敏感詞庫中的詞匯對文本信息進行全文匹配,具體做法是把敏感詞庫中的所有詞匯依次對文本信息進行比對,如果詞匯被完全包含在文本信息中,就認為該文本信息中包含敏感詞,將這些敏感詞屏蔽或禁止該文本信息發布。·但是,很多敏感詞為了防止被過濾掉,會在敏感詞中間夾雜無意義的干擾詞匯,以避開敏感詞檢測。例如,當“救護車”為敏感詞時,會將“救護車”寫成“救##護##車”的方式以避開敏感詞檢測。因此,需要一種方法,能夠對這些夾雜干擾詞匯的敏感詞進行有效檢測。
    技術實現思路
    本專利技術提供一種檢測詞匯的方法與裝置,以解決現有技術無法檢測夾雜干擾詞匯的敏感詞的缺陷。本專利技術第一個方面提供一種檢測詞匯的方法,包括步驟a :提取待檢測文本中的待檢測字符;步驟b:判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟C,否貝U,轉為步驟d;步驟c :提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b ;步驟d :將所述待檢測字符作為待組合字符,存儲到緩存區;步驟e :根據所述緩存區中的各待組合字符獲取待檢測詞匯;步驟f :判斷所述待所述檢測詞匯是否為敏感詞。本專利技術另一個方面提供一種檢測詞匯的裝置,包括第一提取模塊,用于提取待檢測文本中的待檢測字符;第一判斷模塊,用于判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,觸發第二提取模塊,否則,觸發存儲模塊;所述第二提取模塊,用于提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并發送到所述第一判斷模塊;所述存儲模塊,用于將所述待檢測字符作為待組合字符,存儲到緩存區;組合模塊,用于根據所述緩存區中的各待組合字符獲取待檢測詞匯;第二判斷模塊,用于判斷所述待所述檢測詞匯是否為敏感詞。如上所述的由上述技術方案可知,本專利技術提供的檢測詞匯的方法與裝置,能夠對當前正在編輯的待檢測文本進行實時監測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞。附圖說明圖I為根據本專利技術一實施例的檢測詞匯的方法的流程示意圖;圖2為根據本專利技術又一實施例的檢測詞匯的方法的流程示意圖;圖3為根據本專利技術另一實施例的檢測詞匯的裝置的結構示意圖;圖4為根據本專利技術又一實施例的檢測詞匯的裝置的結構示意圖。具體實施方式·本實施例一提供一種檢測詞匯的方法,該方法適用于現在所有的網絡平臺。本方法的執行主體為檢測詞匯的裝置,該檢測詞匯的裝置可以集成于各種網絡平臺或服務器。如圖I所示,為本實施例的檢測詞匯的方法的流程示意圖,具體包括步驟101,提取待檢測文本中的待檢測字符。本步驟可以將當前正在編輯的文本作為待檢測文本。例如是某個用戶正在編輯的帖子。檢測詞匯的裝置按照編輯的順序依次從待檢測文本中提取待檢測字符,每次可以僅提取一個。待檢測字符包括所有的漢字、數字、符號,甚至英文字母等。步驟102,判斷待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟103,否貝U,轉為步驟104。干擾詞匯為可以預定義的各種符號、數字或生僻字。例如“地X震”中的“ X ”可以是被看作是干擾詞匯,或者“地I震”中的“I”可以被預設為干擾詞匯,或者“地鼐震”中的“鼐”可以被預設為干擾詞匯。具體可以根據實際需要進行設定,在此不再贅述。假設當前提取的待檢測字符為“ X ”,并判斷出該待檢測字符是干擾詞匯時,去除該干擾詞匯,并執行步驟103,否則將該待檢測字符作為待組合字符存儲在緩存區中。步驟103,提取待檢測文本中與待檢測字符相鄰的下一個字符作為待檢測字符,并轉為執行步驟102。步驟104,將待檢測字符作為待組合字符,存儲到緩存區。緩存區可以設置在檢測詞匯的裝置中,也可以以單獨設置的存儲器的形式實現。步驟105,根據緩存區中的各待組合字符獲取待檢測詞匯。可以按照待組合字符存入緩存區的順序形成待檢測詞匯。根據統計,用戶在敏感詞中加入干擾詞匯時,一般不會改變原有的敏感詞各個字符的順序,因此,待檢測詞匯可以按照待組合字符存入緩存區中的順序獲取,以避免由于待組合字符可以組合多個待檢測詞匯為檢測詞匯的裝置帶來額外的負擔。此外,該步驟105可具體包括獲取緩存區中待組合字符的個數,當待組合字符的個數大于或等于預設閾值時,根據各待組合字符獲取待檢測詞匯。由于一般情況下,不會把單獨I個字作為敏感詞匯,因此本實施例的預設閾值可以為2。步驟106,判斷待檢測詞匯是否為敏感詞。例如,根據預設的敏感詞庫判斷待檢測詞匯是否為敏感詞。敏感詞庫中包括根據預先統計的各敏感詞,并可以隨時進行更新。采用現有技術對待檢測詞匯在敏感詞庫中進行匹配,當匹配成功時,說明該待檢測詞匯為敏感詞,或者是疑似敏感詞。疑似敏感詞為包含在敏感詞中的詞匯,例如,當“地震局”為敏感詞時,“地震”為疑似敏感詞。本實施例中,當判斷出待檢測詞匯為敏感詞時,對該待檢測詞匯進行標記,清空緩存區,以提示用戶進行修改,并在后續的檢測中不再檢測該敏感詞。當判斷出待檢測詞匯為疑似敏感詞時,同樣可以對該待檢測詞匯進行標記以提示用戶,并可以轉為步驟103的操作以進一步判斷用戶所要輸入的是否為敏感詞。例如,當用戶輸入“地震”時,檢測詞匯的裝置識別該待檢測詞匯為疑似敏感詞,疑似敏感詞為包含在敏感詞中的詞匯,而跟隨著“震”字后面的詞為“錄”時,“地震錄”并不是敏感詞。本實施例的方法在步驟105之后且在步驟106之前還可以包括根據預設的相關性詞庫判斷待檢測詞匯是否為相關性詞匯,當判斷結果為否時,從待組合字符中去除待檢測字符,并可以轉為步驟103,當判斷結果為是時,轉為步驟106。相關性詞庫中包含根據預 設統計的所有日常用語,包括敏感詞匯,并可以隨時進行更新。本實施例中“地震錄”為相關性詞匯;或者當判斷出待檢測詞匯“地震拉”為非相關性詞匯時,很有可能用戶采用“拉”字作為干擾詞匯,即用戶所要輸入的詞匯為“地震拉局”,此時將“拉”字去除,并通過判斷下一個待組合字符是否為“局”字來判斷用戶是否想要輸入敏感詞。此外,用戶可以首先判斷待檢測詞匯是否為相關性詞匯,當判斷結果為否時,就無需進行是否為敏感詞匯的判斷,可以減輕檢索詞匯的裝置的負擔。根據本實施例的檢測詞匯的方法,能夠對當前正在編輯的待檢測文本進行實時監測,并通過去除待檢測文本中的干擾詞匯以有效判斷出敏感詞,對用戶進行提示。當用戶所要發布信息的內容中包含敏感詞,可以采用阻止其發布的方式以避免不健康信息的傳播。本實施例二基于實施例一提供一種檢測詞匯的方法。如圖2所示,為根據本實施例的檢測詞匯的方法流程示意圖。步驟201,提取待檢測文本中的待檢測字符。本步驟可以將當前正在編輯的文本作為待檢測文本。例如是某個用戶正在編輯的帖子;或者是一個完整的文本信息,例如發送至短信中心的短信。檢測詞匯的裝置按照編輯的順序依次從待檢測文本中提取待檢測字符,每次可以僅提取一個待檢測字符。檢測詞匯的裝置對待檢測文本進行檢測,可以是在輸入每個字后立即進行檢測,可以是在字輸入一段時間后進行檢測本文檔來自技高網...

    【技術保護點】
    一種檢測詞匯的方法,其特征在于,包括:步驟a:提取待檢測文本中的待檢測字符;步驟b:判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟c,否則,轉為步驟d;步驟c:提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b;步驟d:將所述待檢測字符作為待組合字符,存儲到緩存區;步驟e:根據所述緩存區中的各待組合字符獲取待檢測詞匯;步驟f:判斷所述待所述檢測詞匯是否為敏感詞。

    【技術特征摘要】
    1.一種檢測詞匯的方法,其特征在于,包括 步驟a :提取待檢測文本中的待檢測字符; 步驟b:判斷所述待檢測字符是否為干擾詞匯,當判斷結果為是時,轉為步驟C,否則,轉為步驟d ; 步驟c :提取所述待檢測文本中與所述待檢測字符相鄰的下一個字符作為待檢測字符,并轉為步驟b; 步驟d :將所述待檢測字符作為待組合字符,存儲到緩存區; 步驟e :根據所述緩存區中的各待組合字符獲取待檢測詞匯; 步驟f :判斷所述待所述檢測詞匯是否為敏感詞。2.根據權利要求I所述的檢測詞匯的方法,其特征在于,還包括 當判斷出所述待檢測詞匯為敏感詞時,標識所述敏感詞,清空所述緩存區,轉為步驟C。3.根據權利要求I或2所述的檢測詞匯的方法,其特征在于,所述根據各待組合字符獲取待檢測詞匯包括 按照所述待組合字符存入所述緩存區的順序形成所述待檢測詞匯。4.根據權利要求I所述的檢測詞匯的方法,其特征在于,在步驟e之后且在步驟f之前,還包括 根據預設的相關性詞庫判斷所述待檢測詞匯是否為相關性詞匯; 當判斷結果出所述待檢測詞匯不是相關性詞匯時,從所述待組合字符中去除所述待檢測字符,并判斷表示獲取待組合字符的計數值是否達到計數最大值,當判斷結果為出所述計數值達到計數最大值時,從所述待檢測文本中提取與所述緩存區中的首待組合字符相鄰的下一個字符作為待檢測字符,清空所述緩存區并重置所述計數值,并返回步驟b,否則,將計數值加1,返回步驟c ; 當判斷結果出所述待檢測詞匯是相關性詞匯時,執行步驟f。5.根據權利要求2所述檢測詞匯的方法,其特征在于,還包括 當判斷出所述待檢測詞匯不是敏感詞時,判斷所述待檢測詞匯是否為疑似敏感詞,當判斷結果為是時,將所述待組合字符保留在所述存儲區中,返回步驟C,所述疑似敏感詞為包含在敏感詞中的詞匯。6.一種檢測詞匯的裝置,其特征在于,包括 第一提取模塊,用于提...

    【專利技術屬性】
    技術研發人員:胡昌瑋李珩楊貝斯
    申請(專利權)人:中國聯合網絡通信集團有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产丰满乱子伦无码专区| 亚洲AV无码第一区二区三区| 国产白丝无码免费视频| 亚洲va无码手机在线电影| 无码人妻品一区二区三区精99 | 无码日韩精品一区二区免费| 日韩人妻无码精品无码中文字幕| 国产精品无码久久综合| 麻豆亚洲AV成人无码久久精品| 久久久久亚洲精品无码系列 | 亚洲AV无码乱码在线观看牲色| 亚洲AV区无码字幕中文色| 永久免费无码日韩视频| 无码中文字幕乱码一区| 久久av无码专区亚洲av桃花岛| 国产成人无码av| 亚洲AV永久无码精品一区二区国产 | 韩日美无码精品无码| 国产午夜av无码无片久久96| 少妇人妻无码专区视频| 亚洲综合无码AV一区二区| 亚洲精品无码久久毛片| 国产高清不卡无码视频| 无码人妻精品一区二区蜜桃| 亚洲AV永久无码精品| 中文字幕丰满伦子无码| 国产精品99久久久精品无码| 久久精品无码免费不卡| 五月婷婷无码观看| 午夜精品久久久久久久无码| 麻豆人妻少妇精品无码专区| 亚洲av纯肉无码精品动漫| 中文无码热在线视频| 伊人无码精品久久一区二区| 亚洲中文字幕无码av在线| AV无码人妻中文字幕| 亚洲AV无码国产精品色| 亚洲精品无码久久久久A片苍井空| 无码av免费毛片一区二区| 久久久久久精品无码人妻| 精品久久久久久无码人妻中文字幕|