• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于停用詞的相似文檔查詢方法技術(shù)

    技術(shù)編號(hào):8347943 閱讀:368 留言:0更新日期:2013-02-21 01:27
    本發(fā)明專利技術(shù)涉及基于停用詞的相似文檔查詢方法,步驟為:1)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息;2)根據(jù)分詞詞典對(duì)兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;3)在詞匯流中按照書寫習(xí)慣提取得到停用詞;4)將停用詞后面的正常語(yǔ)義詞和該停用詞組合成分段信息指紋;5)把分段信息指紋分別匯總形成兩個(gè)文檔的中指紋標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì);6)對(duì)信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,得到兩個(gè)文檔的相似度值;7)將相似度值大于設(shè)定閾值的兩文檔作為相似文檔,按照設(shè)定方式輸出所有或部分相似文檔。本發(fā)明專利技術(shù)使用“中文停用詞”+多個(gè)“后續(xù)詞”的方法,符合中文語(yǔ)境,具備更好比較效果。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及對(duì)電子化文檔與文檔之間相似度的查詢方法,具體涉及一種利用中文停頓詞比較文檔相似度的方法,屬于計(jì)算機(jī)語(yǔ)言處理及信息檢索

    技術(shù)介紹
    隨著互聯(lián)網(wǎng)技術(shù)的普及和應(yīng)用,電子化文檔的使用量越來(lái)越大。電子化文檔在方便人們提高工作效率、節(jié)約紙張等自然資源的利用的同時(shí),也帶來(lái)一些額外的問題和麻煩。 如電子化文檔比較容易復(fù)制,也比較容易傳播。這些文檔電子化的新特征使得文檔的抄襲在技術(shù)上更加容易。加之電子化數(shù)據(jù)量的日益增大,這類抄襲的人工判斷越來(lái)越困難。因此,非常有必要利用現(xiàn)代化信息技術(shù)來(lái)改進(jìn)人們對(duì)文檔相似度判斷的方法,從而提高人們處理日益增長(zhǎng)的海量電子化文檔的能力。在過去幾十年內(nèi),人們對(duì)于自然語(yǔ)言處理的理論和技術(shù)都有了比較大的提高,電子文檔是文本電子化的產(chǎn)物,而文本正是人類自然語(yǔ)言描述的產(chǎn)物。利用自然語(yǔ)言的處理方法來(lái)改變過去對(duì)文檔逐字、逐詞進(jìn)行比較的方法將有效提高文檔比對(duì)的效率和效果。文檔相似性是文本信息處理領(lǐng)域的核心問題,很多的文本應(yīng)用包括文檔聚類、 文檔檢索、文檔過濾等,都密切依賴于文檔形似性的精確度量。在自然語(yǔ)言處理領(lǐng)域, 人們總結(jié)了一些通用的方法和規(guī)則,如=N-Gram分詞方法(具體可參考A. Andoni and P. Indyk, “Near-optimal hashing algorithms for approximate nearest neighbor in highdimensions,,,Comm. ACM 51:1, pp. 117 - 122, 2008.),基于 Shingle 的信息指紋對(duì)比(具體可參考 2. A. Z. Broder, “On the resemblance and containment of documents,,,Proc. Compression and Complexity of Sequences, pp. 21 - 29, Positano Italy, 1997.)等。然而這些方法大多數(shù)據(jù)源于西方的西文文字處理,對(duì)于中文等東亞語(yǔ)種的特殊性沒有專門的應(yīng)對(duì)。中文及東亞文字有典型的斷詞問題,這些問題在西方語(yǔ)種中是以單詞,即單字的形式出現(xiàn),在表達(dá)上以空格分開。因此,西方文字天然不用分詞,而中文語(yǔ)言的處理恰恰相反,在進(jìn)行結(jié)構(gòu)化處理的時(shí)候,需要“分詞”的問題,也要考慮由此帶來(lái)的 “分詞歧義”問題。所以,在文檔相似度比對(duì)方面,有必要充分考慮中文處理的特殊性。
    技術(shù)實(shí)現(xiàn)思路
    針對(duì)現(xiàn)有文獻(xiàn)相似度比較方法,本專利技術(shù)提出利用非精確、集合運(yùn)算比對(duì)的算法來(lái)提高比對(duì)工作效率,利用中文“停用詞”(Stop Word)來(lái)實(shí)現(xiàn)提高中文文檔對(duì)比效果的比對(duì)方法。本專利技術(shù)的技術(shù)方案提出了,其步驟包括I)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個(gè)或多個(gè)數(shù)據(jù)源;或兩文檔為從一個(gè)或多個(gè)數(shù)據(jù)源中提取的兩文檔,2)根據(jù)分詞詞典對(duì)所述兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;3)在所述詞匯流中按照書寫習(xí)慣提取得到停用詞;4)將所述停用詞后面的正常語(yǔ)義詞和該停用詞組合成分段信息指紋;5)把所述分段信息指紋分別匯總形成所述兩個(gè)文檔的中指紋標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì);6)對(duì)所述信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,得到所述兩個(gè)文檔的相似度值;7)將相似度值大于設(shè)定閾值的兩文檔作為相似文檔,按照設(shè)定方式輸出所有或部分相似文檔。所述分段信息指紋通過唯一記數(shù)器記錄。所述停用詞中按照書寫習(xí)慣由左到右進(jìn)行提取同時(shí)去掉連續(xù)的重復(fù)詞。所述正常語(yǔ)義詞選用至少一個(gè)以上。所述正常語(yǔ)義詞選用2個(gè)。所述信息指紋庫(kù)通過用戶計(jì)算機(jī)保存至本地或上傳到遠(yuǎn)端服務(wù)器。所述停用詞通過連續(xù)提取得到。所述字符信息包括中文標(biāo)點(diǎn)、符號(hào)亂碼。所述指紋庫(kù)中指紋標(biāo)識(shí)相似度通過jaccard相似性算法計(jì)算。所述指紋庫(kù)中指紋標(biāo)識(shí)相似度通過Euclidean Distances或Cosine Distance方法計(jì)算。本專利技術(shù)的有益效果本專利技術(shù)的優(yōu)點(diǎn)在于,使用了“中文停用詞”+多個(gè)“后續(xù)詞”的方法,符合中文語(yǔ)境, 尤其對(duì)于一些有一定寫作習(xí)慣的文章而言,具備更好的比較效果。該方法用于提高中文文檔相似度比對(duì)的效果和比對(duì)的效率,提高人們利用計(jì)算機(jī)處理相似文檔的能力,使人們可以更高效率的在海量文檔中找出抄襲或引用原文的文檔。附圖說明圖I是本專利技術(shù)基于停用詞的相似文檔查詢方法的流程圖2是本專利技術(shù)基于停用詞的相似文檔查詢方法Jaccard相似算法示意圖3是本專利技術(shù)基于停用詞的相似文檔查詢方法一實(shí)施例中Jaccard相似算法具體示意圖。具體實(shí)施方式下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對(duì)本分買那個(gè)實(shí)施例中的技術(shù)方案進(jìn)行清除、完整地描述,可以理解的是,所描述的實(shí)施例僅僅是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例。基于本專利技術(shù)中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。如圖I所示,本方法分成以下幾個(gè)工作步驟I.將中文電子文檔格式歸一化。歸一化是指將一個(gè)文檔中所有字符(字符 (Character)是各種文字和符號(hào)的總稱)去除所有非文字字符和標(biāo)點(diǎn)之外格式的純字符信舉例歸一化前中國(guó)啊,_ ¥%......&*我的祖國(guó)!歸一化后中國(guó)啊我的祖國(guó)2.根據(jù)分詞詞典,對(duì)中文電子文檔進(jìn)行分詞操作,將中文電子文檔轉(zhuǎn)化成相關(guān)的詞匯流。舉例分詞前中國(guó)啊我的祖國(guó)分詞后中國(guó)+啊+我+的+祖國(guó)3.從左到右根據(jù)停用詞詞典,找出詞匯流中的“停用詞”。(此處強(qiáng)調(diào)必須由左到右,以通過書寫習(xí)慣提取信息指紋,并且去掉連續(xù)的重復(fù)詞)過濾前中國(guó)+啊+我+的+祖國(guó)過濾后中國(guó)+啊+我+的+祖國(guó)(其中“啊”和“的”是停用詞)4.每找到一個(gè)停用詞,將停用詞后面的2個(gè)正常語(yǔ)義詞(可配置成其它參數(shù)),和這個(gè)停用詞一起組合形成一個(gè)分段“信息指紋”。在上例中,文本經(jīng)過抽取后,形成的兩個(gè)信息指紋包括“啊+我+的”和“的+祖國(guó)”5.將該文檔的所有分段“電子信息指紋”信息匯總,形成該文檔的“電子信息指紋” 標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì)。除此之外,考慮到被比對(duì)文檔的長(zhǎng)度問題,本方法只使用唯一記數(shù)器記錄分段信息指紋,在少量犧牲精度的情況下,可以減少計(jì)算機(jī)內(nèi)存的使用,大大提高比對(duì)速度。如圖2所示是本專利技術(shù)比較文檔相似度的方法Jaccard相似算法示意圖Jaccard指數(shù)& = c/ (a+b-c),a、b為兩個(gè)文本的指紋數(shù),c為兩文本共有的指紋數(shù)。除了 Jaccard相似度判斷方法之外,還可以采用Euclidean Distances、Cosine Distance等方法。(具體可參見Μ· S. Charikar,“Similarity estimation techniques from roundingalgorithms,,’ACM Symposium on Theory of Computing, pp. 380 - 388, 2002. X如圖3所示是本專利技術(shù)比較文檔相似度的方法一實(shí)施例中Jaccard相似算法具體示意圖。以下步驟應(yīng)用本方法,對(duì)兩個(gè)具體的兩個(gè)實(shí)例進(jìn)行相似度對(duì)比被比較文本如下原文本I (不包含引號(hào))“中國(guó)啊,我的母親!母親啊,你多么偉大! ”原文本2 (不包含引號(hào))“母親啊,我的母親啊,你多本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種基于停用詞的相似文檔查詢方法,其步驟包括:1)將待查詢的兩文檔進(jìn)行歸一化處理,去除文檔中所有非中文字字符信息;所述兩文檔,其一為待查文檔,另一取自一個(gè)或多個(gè)數(shù)據(jù)源;或兩文檔為從一個(gè)或多個(gè)數(shù)據(jù)源中提取的兩文檔,2)根據(jù)分詞詞典對(duì)所述兩個(gè)文檔進(jìn)行分詞操作,將該些文檔轉(zhuǎn)化成詞匯流;3)在所述詞匯流中按照書寫習(xí)慣提取得到停用詞;4)將所述停用詞后面的正常語(yǔ)義詞和該停用詞組合成分段信息指紋;5)把所述分段信息指紋分別匯總形成所述兩個(gè)文檔的中指紋標(biāo)識(shí),并放入信息指紋庫(kù)中進(jìn)行比對(duì);6)對(duì)所述信息指紋庫(kù)中指紋標(biāo)識(shí)相似度進(jìn)行計(jì)算,得到所述兩個(gè)文檔的相似度值;7)將相似度值大于設(shè)定閾值的兩文檔作為相似文檔,按照設(shè)定方式輸出所有或部分相似文檔。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:林述民
    申請(qǐng)(專利權(quán))人:北京銳安科技有限公司
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码一区二区三区中文字幕| 国产成人无码一区二区在线观看 | 亚洲AV日韩AV永久无码色欲| 免费无码VA一区二区三区 | 无码专区天天躁天天躁在线| 亚洲日韩精品无码专区加勒比☆ | 亚洲精品无码一区二区 | 国产亚洲大尺度无码无码专线| 亚洲欧洲无码AV电影在线观看 | 亚洲精品一级无码鲁丝片| 熟妇人妻中文字幕无码老熟妇 | 亚洲AV中文无码乱人伦在线视色| 国产精品无码成人午夜电影| 少妇极品熟妇人妻无码| 国产午夜无码视频在线观看| 亚洲AV无码一区二区三区牲色| 日韩专区无码人妻| 亚洲av无码片区一区二区三区| 久久综合一区二区无码| 久久Av无码精品人妻系列 | 自慰无码一区二区三区| 午夜麻豆国产精品无码| 无码午夜人妻一区二区三区不卡视频 | 久久精品中文无码资源站 | 亚洲动漫精品无码av天堂| 人妻无码一区二区三区AV| 亚洲a∨无码一区二区| 成年无码av片完整版| 亚洲AV永久无码精品一区二区国产| 亚洲大尺度无码无码专线一区| 国产精品无码无需播放器| 少妇无码AV无码一区| 爽到高潮无码视频在线观看| 中文字幕人成无码人妻综合社区| 伊人久久综合无码成人网| 国产午夜激无码av毛片| 亚洲AV无码资源在线观看| 亚洲AV无码一区二区三区牛牛| 无套中出丰满人妻无码| 中文字幕无码人妻AAA片| 成人av片无码免费天天看|