• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種變形詞證認(rèn)系統(tǒng)及證認(rèn)方法技術(shù)方案

    技術(shù)編號:8593938 閱讀:219 留言:0更新日期:2013-04-18 07:06
    本發(fā)明專利技術(shù)公開了一種變形詞證認(rèn)系統(tǒng)及證認(rèn)方法。在該變形詞證認(rèn)系統(tǒng)中,由原形詞提供模塊提供原形詞,變形詞生成模塊在變形詞庫中查找原形詞的變形詞,將變形詞提供給變形詞檢測模塊,證認(rèn)模塊通過概念庫的支持,檢測待檢測數(shù)據(jù)的語義背景與原形詞概念集合的相似程度,變形詞判別模塊通過相似度值與預(yù)先設(shè)定的判別閾值比較,得出所檢測的變形詞是否為原形詞的變形詞的結(jié)論。本發(fā)明專利技術(shù)能夠?qū)ΤR娫~的各種變形詞進行機器自動檢測。在變形詞證認(rèn)的過程中,通過檢測與證認(rèn)的有機結(jié)合,對變形詞的信度進行了有語義依據(jù)的評估,從而使變形詞的判別結(jié)論有效可信。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及一種對變形詞進行檢測證認(rèn)的系統(tǒng),同時也涉及該系統(tǒng)實現(xiàn)變形詞檢測證認(rèn)的方法,屬于計算機自然語言處理

    技術(shù)介紹
    隨著互聯(lián)網(wǎng)的推廣普及,現(xiàn)實生活中開始出現(xiàn)越來越多的網(wǎng)絡(luò)語言。網(wǎng)絡(luò)語言的一個顯著特點在于變形詞特別多,例如用“886”表示“再見”,“3Q”表示“謝謝”,“童鞋”表示“同學(xué)”等等。另一方面,有些作者為了規(guī)避機器自動檢測,故意選用錯字、別字、同音字等變形詞替換原形詞。這些變形詞的出現(xiàn)給計算機自然語言處理帶來了巨大的技術(shù)挑戰(zhàn),需要研發(fā)出專門的變形詞檢測技術(shù)加以解決。目前,現(xiàn)有的變形詞檢測技術(shù)大多基于變形詞庫實現(xiàn),主要在變形詞檢測的技術(shù)實現(xiàn)上有所不同,例如有的變形詞檢測技術(shù)是在分離變形詞部分后與原形詞進行匹配。在申請?zhí)枮?8105507. 9的中國專利申請中,公開了一種不連續(xù)短語的匹配翻譯裝置和方法。該裝置包括一個句子獲取裝置,從一篇文章或文章片斷的指定的位置獲取一個句子;變形詞辨析裝置,根據(jù)變形詞取得其原形;短語辨析裝置,將有關(guān)的短語信息位置取出并送到短語索引裝置中;短語索引裝置,根據(jù)短語辨析裝置的輸入,將涉及有關(guān)單詞的短語全部取出進行匹配;以及語法規(guī)則快速確認(rèn)裝置,根據(jù)相關(guān)的語法規(guī)則,判斷所識別出的語言成分是否符合語法規(guī)則。另外,在申請?zhí)枮?00810224894. 7的中國專利申請中,也公開了一種敏感詞校對的方法及系統(tǒng)。該方法包括如下步驟通過組成敏感詞的字的內(nèi)碼,及內(nèi)碼和字的拼音字母組成信息的對應(yīng)關(guān)系,確定敏感詞拼音字母組成信息;從被校對文本中獲取被校對詞,通過組成被校對詞的漢字內(nèi)碼,及內(nèi)碼和字的拼音字母組成信息的對應(yīng)關(guān)系,確定被校對詞拼音字母組成信息;若被校對詞與敏感詞,彼此之間的拼音字母組成信息相同,則確定被校對詞為敏感詞,因此通過語音校對,使得敏感詞的變形詞可以被校對出來,提高了敏感詞的校對準(zhǔn)確率。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)所要解決的技術(shù)問題在于提供。該技術(shù)方案將變形詞的檢測與證認(rèn)有機結(jié)合,從而使變形詞判別結(jié)論有語義依據(jù)。為實現(xiàn)上述的專利技術(shù)目的,本專利技術(shù)采用下述的技術(shù)方案—種變形詞證認(rèn)系統(tǒng),包括原形詞提供模塊、變形詞生成模塊、變形詞庫、變形詞檢測模塊、證認(rèn)模塊、概念庫及變形詞判別模塊;其中,所述原形詞提供模塊與所述變形詞生成模塊連接,所述變形詞生成模塊分別連接所述變形詞庫和所述變形詞檢測模塊,所述證認(rèn)模塊分別與所述變形詞檢測模塊、所述變形詞判別模塊和所述概念庫進行連接;所述原形詞提供模塊提供原形詞,所述變形詞生成模塊在所述變形詞庫中查找所述原形詞的變形詞,將所述變形詞提供給所述變形詞檢測模塊,所述證認(rèn)模塊通過所述概念庫的支持,檢測待檢測數(shù)據(jù)的語義背景與原形詞概念集合的相似程度,所述變形詞判別模塊通過所述相似度值與預(yù)先設(shè)定的判別閾值比較,得出所檢測的變形詞是否為所述原形詞的變形詞的結(jié)論。其中較優(yōu)地,所述變形詞證認(rèn)系統(tǒng)中還包括數(shù)據(jù)提供模塊,所述數(shù)據(jù)提供模塊分別與所述變形詞檢測模塊和所述證認(rèn)模塊進行連接。其中較優(yōu)地,所述變形詞庫中以原形詞為主鍵,記錄所述原形詞的變形詞;所述變形詞包括但不限于漢語拼音、同音詞、拼音首字母詞、易混詞、拆字變形詞、英語同音詞。其中較優(yōu)地,所述概念庫是以原形詞為節(jié)點的無向圖,在節(jié)點之間以邊相連,每條邊表示兩個節(jié)點的原形詞屬于相同的概念集合。其中較優(yōu)地,所述概念集合是與原形詞節(jié)點相連的一級節(jié)點的集合。一種變形詞證認(rèn)方法,包括如下步驟首先通過原形詞,在變形詞庫查詢其對應(yīng)的變形詞;在得到原形詞及變形詞后,在待檢測數(shù)據(jù)中做匹配運算,如果得到對應(yīng)的變形詞則繼續(xù),否則退出變形詞證認(rèn);如果待檢測數(shù)據(jù)中存在變形詞,將變形詞前后一定范圍內(nèi)的文本數(shù)據(jù)作為語義背旦牙、;通過原形詞在概念庫中查找與所述原形詞相關(guān)的概念集合,計算所述概念集合與所述語義背景間的相似性,利用相似性度量變形詞是所述原形詞的變形詞的信度值;通過預(yù)先設(shè)定的判別閾值與所述信度值進行比較,得出變形詞是不是所述原形詞的變形詞的結(jié)論。其中較優(yōu)地,在查詢變形詞的過程中,通過指定變形詞類別作為過濾條件,得到所述原形詞的不同形式的變形詞。本專利技術(shù)所提供的變形詞證認(rèn)系統(tǒng)及證認(rèn)方法能夠?qū)ΤR娫~的各種變形詞進行機器自動檢測。在變形詞證認(rèn)的過程中,通過檢測與證認(rèn)的有機結(jié)合,對變形詞的信度進行了有語義依據(jù)的評估,從而使變形詞的判別結(jié)論有效可信。附圖說明圖1是本專利技術(shù)所提供的變形詞證認(rèn)系統(tǒng)的整體結(jié)構(gòu)示意圖;圖2是本變形詞證認(rèn)系統(tǒng)中,變形詞庫的表結(jié)構(gòu)示意圖;圖3是本變形詞證認(rèn)系統(tǒng)中,概念庫中節(jié)點的連接關(guān)系示意圖。具體實施例方式本專利技術(shù)所提供的變形詞證認(rèn)系統(tǒng)的一個技術(shù)特點是指定原形詞,根據(jù)變形詞庫的變形詞形與文本數(shù)據(jù)進行匹配。如圖1所示,該變形詞證認(rèn)系統(tǒng)由原形詞提供模塊、變形詞生成模塊、變形詞庫、變形詞檢測模塊和數(shù)據(jù)提供模塊、證認(rèn)模塊、概念庫及變形詞判別模塊組成。其中,原形詞提供模塊確定原形詞的詞形。它與變形詞生成模塊連接,向其提供原形詞。變形詞生成模塊在變形詞庫中查找原形詞的不同形式的變形詞,例如漢語拼音詞、同音詞、拼音首字母詞、易混詞、拆字變形詞、常見英語同音詞等,并將這些變形詞提供給變形詞檢測模塊。數(shù)據(jù)提供模塊分別與變形詞檢測模塊和證認(rèn)模塊進行連接,向它們提供待檢測的數(shù)據(jù)。這里的待檢測數(shù)據(jù)通常是一段文本數(shù)據(jù)。變形詞檢測模塊用于實現(xiàn)對文本數(shù)據(jù)的詞語檢測,檢測范圍包括原形詞本身及其變形詞形式。證認(rèn)模塊分別與變形詞檢測模塊、變形詞判別模塊和概念庫進行連接,用于通過概念庫的支持,檢測文本數(shù)據(jù)的語義背景與原形詞概念集合的相似程度。變形詞判別模塊通過上述的相似度值與預(yù)先設(shè)定的判別閾值比較,得出所檢測的變形詞是否為指定原形詞的變形詞的結(jié)論。在變形詞的實現(xiàn)上,本專利技術(shù)首先提供需要檢測變形詞的原形詞。具體地說,由原形詞提供模塊提供原形詞的詞形,指定對哪個詞形進行變形詞檢測及證認(rèn)。如圖2所示,變形詞庫中以原形詞為主鍵,記錄原形詞的不同形式的變形詞,如漢語拼音、同音詞、拼音首字母詞、易混詞、拆字變形詞、常見英語同音詞等變形詞。這些變形詞可以在原形詞的基礎(chǔ)上,利用常見變形詞的組詞規(guī)律,由計算機自動生成。通過變形詞庫的支持,可以查詢原形詞存儲在變形詞庫中的變形詞形式。變形詞生成模塊通過已知的原形詞及變形詞組詞規(guī)律,在變形詞庫中查詢出所有的變形詞形式。在查詢結(jié)果的篩選上,通過變形詞生成模塊可以控制查詢返回的變形詞類別。本專利技術(shù)中的概念庫是一個知識網(wǎng)絡(luò),是以原形詞為節(jié)點的無向圖。在節(jié)點之間以邊相連。每條邊表示兩個節(jié)點的原形詞屬于相同的概念集合。例如某個原形詞是“電腦”,它與另一個原形詞“計算機”是同義詞,因此用一條邊相連,表示兩者屬于同一概念集合。在本專利技術(shù)中,概念集合是與原形詞節(jié)點相連的一級節(jié)點的集合。圖3顯示了概念庫中原形詞節(jié)點之間形成的概念集合表達方式。在變形詞證認(rèn)的過程中,本專利技術(shù)利用概念庫的支持,將每個原形詞的概念集合存儲在概念庫中。當(dāng)檢測到原形詞某種形式的變形詞時,將變形詞出現(xiàn)位置前后一段文本作為語義背景,計算此語義背景與原形詞的概念集合的相似度,以此來度量證認(rèn)的信度。證認(rèn)是指經(jīng)過觀察檢驗而確認(rèn)某事物的存在,或證明它是本事物不是其他事物。本專利技術(shù)中的證認(rèn)模塊首先進行概念集合的檢測,得到原形詞的概念集合;同時在輸入的待檢測數(shù)據(jù)中查詢概念集合的覆蓋程度(即相似度本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】
    一種變形詞證認(rèn)系統(tǒng),其特征在于:所述變形詞證認(rèn)系統(tǒng)包括原形詞提供模塊、變形詞生成模塊、變形詞庫、變形詞檢測模塊、證認(rèn)模塊、概念庫及變形詞判別模塊;其中,所述原形詞提供模塊與所述變形詞生成模塊連接,所述變形詞生成模塊分別連接所述變形詞庫和所述變形詞檢測模塊,所述證認(rèn)模塊分別與所述變形詞檢測模塊、所述變形詞判別模塊和所述概念庫進行連接;所述原形詞提供模塊提供原形詞,所述變形詞生成模塊在所述變形詞庫中查找所述原形詞的變形詞,將所述變形詞提供給所述變形詞檢測模塊,所述證認(rèn)模塊通過所述概念庫的支持,檢測待檢測數(shù)據(jù)的語義背景與原形詞概念集合的相似程度,所述變形詞判別模塊通過所述相似度值與預(yù)先設(shè)定的判別閾值比較,得出所檢測的變形詞是否為所述原形詞的變形詞的結(jié)論。

    【技術(shù)特征摘要】
    1.一種變形詞證認(rèn)系統(tǒng),其特征在于 所述變形詞證認(rèn)系統(tǒng)包括原形詞提供模塊、變形詞生成模塊、變形詞庫、變形詞檢測模塊、證認(rèn)模塊、概念庫及變形詞判別模塊;其中, 所述原形詞提供模塊與所述變形詞生成模塊連接,所述變形詞生成模塊分別連接所述變形詞庫和所述變形詞檢測模塊,所述證認(rèn)模塊分別與所述變形詞檢測模塊、所述變形詞判別模塊和所述概念庫進行連接; 所述原形詞提供模塊提供原形詞,所述變形詞生成模塊在所述變形詞庫中查找所述原形詞的變形詞,將所述變形詞提供給所述變形詞檢測模塊,所述證認(rèn)模塊通過所述概念庫的支持,檢測待檢測數(shù)據(jù)的語義背景與原形詞概念集合的相似程度,所述變形詞判別模塊通過所述相似度值與預(yù)先設(shè)定的判別閾值比較,得出所檢測的變形詞是否為所述原形詞的變形詞的結(jié)論。2.如權(quán)利要求1所述的變形詞證認(rèn)系統(tǒng),其特征在于 所述變形詞證認(rèn)系統(tǒng)中還包括數(shù)據(jù)提供模塊,所述數(shù)據(jù)提供模塊分別與所述變形詞檢測模塊和所述證認(rèn)模塊進行連接。3.如權(quán)利要求1所述的變形詞證認(rèn)系統(tǒng),其特征在于 所述變形詞庫中以原形詞為主鍵,記錄所述原形詞的變形詞;所述變形詞包括但不限于漢語拼音、同音詞、拼...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:張作職,宋傳寶,王樹強,
    申請(專利權(quán))人:北京海量融通軟件技術(shù)有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲人成网亚洲欧洲无码久久| 亚洲AV色无码乱码在线观看| 久久无码人妻精品一区二区三区| 无码毛片一区二区三区中文字幕| 亚洲中文字幕无码久久2017| 男人av无码天堂| 一本加勒比hezyo无码专区| 久久午夜无码鲁丝片| 久久精品无码一区二区app| 亚洲av无码偷拍在线观看| 国产成人无码18禁午夜福利p| 亚洲精品av无码喷奶水糖心| 久久久久久AV无码免费网站下载| 无码少妇一区二区浪潮av| 精品人妻无码区二区三区| 中文无码制服丝袜人妻av| 亚洲AV无码不卡在线观看下载| 永久免费av无码网站韩国毛片| 亚洲av无码片在线播放| 成年午夜无码av片在线观看| 亚洲 无码 在线 专区| 69成人免费视频无码专区| 无码国产精品一区二区免费式直播| 亚洲AV无码一区二区三区系列| 国产精品无码素人福利| 久久激情亚洲精品无码?V| 日韩电影无码A不卡| 亚洲伊人成无码综合网| 亚洲Av无码国产情品久久| 最新亚洲人成无码网站| 成年轻人电影www无码| 亚洲aⅴ天堂av天堂无码麻豆| 久久久久精品国产亚洲AV无码| 熟妇人妻中文字幕无码老熟妇| 亚洲精品无码永久中文字幕| 日韩va中文字幕无码电影| 亚洲一区无码中文字幕| 亚洲AV永久青草无码精品| 人妻无码第一区二区三区| 亚洲视频无码高清在线| 无码VA在线观看|