• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    具有明顯類別劃分的非結構化電子文檔的檢索方法和系統技術方案

    技術編號:8533044 閱讀:206 留言:0更新日期:2013-04-04 16:11
    本發明專利技術提供一種有明顯類別劃分的非結構化電子文檔的檢索方法和系統,其方法包括文檔分類和類型關鍵詞識別階段:文檔分類是將特定集合的文檔,按照各文檔內容之間存在的關系進行分類;類型關鍵詞識別是將所有類型的關鍵詞識別出來;實時搜索階段:根據用戶輸入的搜索詞,查詢符合搜索結果的文檔,并按照文檔相關性從高到低返回搜索結果,該階段提供了一實時搜索相關性算法公式,公式中引入了搜索詞與文檔類別的關系,優化了TF-IDF算法,很大程度上解決了上述提到的兩個TF-IDF用于大型企業電子文檔搜索時存在的兩個問題,使之適用于大型企業電子文檔全文搜索。

    【技術實現步驟摘要】
    具有明顯類別劃分的非結構化電子文檔的檢索方法和系統
    本專利技術涉及一種具有明顯類別劃分的非結構化電子文檔的檢索方法和系統。
    技術介紹
    數字資產是企業中最具價值的無形資產之一。數字資產通常可以分為結構化數據和非結構化數據,所謂結構化數據是指具有良好定義的結構,能夠被方便解析,并可以在關系數據庫中存儲的數據;非結構化數據是相對于結構化數據而言不便于采用二維表結構表示的數據類型。大型企業的各業務應用系統中,非結構化文檔格式多樣化、文檔內容多樣化、相關流程多樣化的非結構化數據文檔全面覆蓋了公司經營管理的方方面面,但其具有 明顯類別劃分的特點。通常,非結構化數據通常是由若干具有業務相關性的非結構化數據按照國家相關標準進行封裝后而形成,是由企業在長時間、耗費了大量的人力、物力、財力的基礎上形成的,含有大量可挖掘的、有助于提升企業經營效益的重要信息。隨著企業信息化程度的逐漸深化,非結構化數據文檔的數量呈不斷上升的趨勢。根據相關統計數據,在現代大型企業中,非結構化數據占比達80%以上,而其中最有價值的、可被進行二次加工的非結構化數據是以電子文檔。作為電子文檔使用的入口,電子文檔檢索系統在企業非結構化數據管理中扮演了重要的角色。通過檢索,才能在海量的企業電子文檔中定位到目標電子文檔,從而使得非結構化數據能夠真正被全面使用。然而,電子文檔的搜索質量保證是工業界普遍面臨的難題,一方面是因為電子文檔的數目通常是巨大的,從幾千萬乃至上億的文檔中識別出用戶想要找到的文檔從概率上看就不是一件容易的事,另一方面還因為不同于網頁之間存在的“超鏈接”關聯,電子文檔的分布是以個體形式、孤立存在的,所以難以通過類似Google的Page-Rank算法類似的“民主投票法”得到電子文檔的“質量”,從而完善搜索相關性。在工業界,目前有幾下幾種主流的電子文檔檢索方法1.基于關鍵詞檢索關鍵詞是指由文檔作者提供的一種限定性描述文檔所屬領域的“關鍵詞”,例如提交學術文獻時(如學術論文),文獻發表機構通常會讓作者在提交文獻時同時給出該文獻的若干關鍵詞,以用于后續檢索需要。以本專利技術為例,關鍵詞會包含“電子文檔”、“檢索”、“大型企業”、“電子文檔檢索”等。基于關鍵詞的搜索,一般是指系統根據用戶輸入的文字,對所管理的電子文檔的關鍵詞進行一一匹配,如果關鍵詞和輸入文字匹配,那么該文檔就會出現在搜索結果中。公開日為2005. 04. 27,公開號為CN1609848的中國專利技術即采用關鍵詞的搜索方法,其揭示了一種預先定義關鍵詞的電子文檔搜索方法,預先定義關鍵詞的電子文檔搜索方法,利用文檔提供者預先定義電子文檔Al的關鍵詞BI,由軟件程序D將此關鍵詞及電子文檔的保存地址bl作為鏈接存儲到關鍵詞及電子文檔地址集合B.文檔的搜索人利用集合B的用戶界面一關鍵詞列表C,通過選擇關鍵詞BI及自由輸入關鍵詞查詢到電子文檔的存儲地址bl,實現快速搜索的目的。該專利技術方法有較大缺陷,所以目前除了專業的學術文獻信息檢索系統外,已經較少使用。它的主要缺點之一是關鍵詞難以精確限定文檔的涉及范圍。例如本文的關鍵詞一“檢索”,幾乎會出現在所有和檢索方法、系統有關的所有文獻中,這樣就導致搜索范圍太廣,搜索匹配結果巨大。然而,如果關鍵詞修改為較為精確的細節描述,雖然能夠精確表達文檔所涉及的一個具體范圍,但確另用戶的輸入檢索詞很難和關鍵詞匹配上,造成文檔無法通過搜索定位到。另外,由于關鍵詞的選取沒有標準,不同作者對同一類文檔給出的關鍵詞也很不一樣,這就更降低了關鍵詞搜索方法的搜索準確率。2.基于全文檢索基于全文的檢索方法,是指系統根據用戶輸入的文字,對所管理的電子文檔的全文所有詞組進行一一匹配,如果電子文檔中含有和輸入文字相匹配的文字,那么該文檔就會出現在搜索結果中。這種方法的一個關鍵技術是文章的分詞,即將全文中的所有文字,按照最合理的方法,拆分成“詞”的組合。在中文領域,特別要解決中文中存在的“多義詞組”問題,如“南京市長江大橋”可以被分解為“南京市+長江大橋”或“南京市長+江大橋”。公開日為2009. 04. 15,公開號為CN101408876,申請號為200710140688. 3的中國專利技術即采用基于全文的檢索方法,其揭示了一種電子文檔全文檢索的方法及系統,所述方法,包括以下步驟(1)根據用戶配置的數據源、索引創建與更新的策略,對該數據源的文本信息進行抽取,并為其中每個詞分別建立索引,構建與該數據源對應的全文檢索索引庫;(2)接收用戶輸入的查詢內容,并根據其確定查詢條件,在所述全文檢索索引庫中對該索引文檔進行查找,得到匹配的文檔信息;(3)對所述匹配的文檔信息進行調整,提取該文檔信息中與用戶搜索相關的摘要信息,并將其返回給用戶。其所述的系統和方法,便于用戶快速檢索不同類型的電子文檔提供的信息,得到準確的或者是全面的搜索文檔搜索結果,使得用戶可迅速定位所需要的文檔信息。該專利技術即使非常好地解決了中文多義詞組的分詞問題,但還是具有較大的缺陷,特別是在大型企業中使用。這是因為大型企業中的歷史電子文檔的容量很可能在PB級別(1PB=1, OOOTB=I, 000, 000GB),相應的電子文檔的個數也在千萬以上,由于全文檢索命中檢索詞的文檔通常會非常多,用戶很難在檢索結果中找到自己需要的那個電子文檔,導致搜索結果不可用。要使得全文檢索的結果有意義,需要對返回的結果進行文檔相關性和重要性排序,使得和檢索詞最相關、最重要的文檔出現在返回結果的最前面。這就是下一個方法要解決的問題。3.基于帶權重的全文檢索通過在全文檢索過程中,加入不同詞的權重(詞的權重是指,一個詞對于文檔或者文檔集合的重要程度),可以優化檢索的返回結果。這類方法中,最基礎的算法是TF-1DF算法。TF-1DF (term frequency -1nverse document frequency)算法由兩個算法組成,分別是TF算法和IDF算法。TF算法是通過判斷一個詞在一個文檔中出現的頻率來度量該詞對于該文檔的重要程度一出現的頻率越高,則該詞對于該文檔的重要性越大,權重也越大;IDF算法是通過判斷一個詞在多個文檔中出現的頻率來度量改詞在文檔集中的重要程度一出現在文檔集的越多文檔中,則該詞對于該文檔集的重要性越低。TF-1DF的公式如下上述公式中的符號N代表一共輸入了 N個檢索詞,Tw是一個檢索詞在該文檔中出現的次數,Ta是該文檔的總詞數(Tw和Ta的計算,一般會扣除虛詞、語氣詞等,以提高計算精度),Dw代表該檢索詞在搜索文檔集合中的多少個文檔中出現過,D是文檔的個數。利用該公式,可以計算出一個文檔對于一組搜索詞的重要程度(或稱為相關性)。從算法原理可知,該算法是通過以下判斷來確定文檔對于一組搜索詞的重要程度如果一個詞在一篇文章中出現的頻率高,并且在其他文章中很少出現,則認為該詞具有很好的類別區分能力,也適用于充當該文檔的“關鍵詞”,權重也越高;反之也是一樣的。并且搜索詞匹配越多,那么文檔的“重要性”越高。這和我們的直覺認知也是一致的。所以,基于該方法的搜索結果就不再是所有無序的、和任何搜索詞有匹配的文檔的集合,而是按照重要程度排列的文檔集合。理想情況下,用戶在搜索結果的前面幾項就可以定位到和其需要一致的文檔。TF-1DF算法在互本文檔來自技高網...

    【技術保護點】
    具有明顯類別劃分的非結構化電子文檔的檢索方法,其特征在于:包括文檔分類和類型關鍵詞識別階段:文檔分類是將特定集合的文檔,按照各文檔內容之間存在的關系進行分類;類型關鍵詞識別是將所有類型的關鍵詞識別出來;實時搜索階段:根據用戶輸入的搜索詞,查詢符合搜索結果的文檔,并按照文檔相關性從高到低返回搜索結果,該階段所采用的實時搜索相關性算法公式如下:Σ1N(TwTalog(DDw)(DCw*cn)12)公式中,N代表一共輸入的檢索詞的個數;Tw是一個檢索詞在該文檔中出現的次數;Ta是該文檔的總詞數;D是文檔的數目;Dw代表該檢索詞在搜索文檔集合中的多少個文檔中出現過;Cw指的是搜索詞對應的類別的文檔數目;cn是類別的數目。

    【技術特征摘要】
    1.具有明顯類別劃分的非結構化電子文檔的檢索方法,其特征在于包括 文檔分類和類型關鍵詞識別階段文檔分類是將特定集合的文檔,按照各文檔內容之間存在的關系進行分類;類型關鍵詞識別是將所有類型的關鍵詞識別出來; 實時搜索階段根據用戶輸入的搜索詞,查詢符合搜索結果的文檔,并按照文檔相關性從高到低返回搜索結果,該階段所采用的實時搜索相關性算法公式如下2.根據權利要求1所述的具有明顯類別劃分的非結構化電子文檔的檢索方法,其特征在于所述文檔分類采用“特征向量比較法”,其具體包括如下步驟 步驟11、根據文檔內容,計算文檔的特征向量準備一個字典庫,通過分析文檔中是否包含字典庫的某個詞,以及詞出現的頻率,得到文檔的特征向量,特征向量的維數和字典庫中詞的個數一致; 步驟12、通過余弦定理,計算兩兩文檔之間的余弦夾角,判斷文檔的類型相關性采用數學中的余弦定理計算每兩個文檔對應的特征向量之間的夾角,夾角用弧度表示,數值越小,代表文檔內容越接近,越有可能被歸為同一類; 步驟13、通過“自底向上、不斷合并”的方法,將余弦夾角小的文檔歸為同一類本步驟是一個迭代的計算過程,在每一次迭代確定一個“閾值”數,將余弦夾角小于該“閾值”的兩個文檔歸為同一類,而后進入下一次迭代;后面執行的迭代的“閾值”大于之前迭代的“閾值”,通過這個步驟,可以使得文檔分別被歸類,且類別越來越少,而每一個類的文檔越來越大,當類別的數目到達一個預設值時,迭代終止。3.根據權利要求2所述的具有明顯類別劃分的非結構化電子文檔的檢索方法,其特征在于所述類型關鍵詞識別采用“特征向量比較法”,其是將字典庫中的詞和類別的平均特征向量進行余弦比較,如果和某個類別的夾角數值小于一個特定閾值,則就可以認為該關鍵詞屬于該類別,是該類別的關鍵詞。4.具有明顯類別劃分的非結構化電子文檔的檢索系統,其特征在于包括 文檔分類模塊將特定集合的文檔,...

    【專利技術屬性】
    技術研發人員:倪時龍宋立華余深田鄭映洪順淋
    申請(專利權)人:福建億榕信息技術有限公司國家電網公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久人妻av无码中文专区| 亚洲AV日韩AV永久无码绿巨人| 亚洲AV无码一区二区三区DV| 无码人妻精品一区二区蜜桃AV| 特黄熟妇丰满人妻无码| 国产精品无码成人午夜电影| 亚洲精品无码中文久久字幕| 天天看高清无码一区二区三区| 亚洲AV综合色区无码一区 | 国产做无码视频在线观看| 热の无码热の有码热の综合| 无码无遮挡又大又爽又黄的视频| 小12箩利洗澡无码视频网站| 久久久久亚洲精品无码系列| 日韩A无码AV一区二区三区| 无码丰满熟妇juliaann与黑人| 中文字幕av无码一区二区三区电影 | 亚洲AV永久青草无码精品| 韩国无码AV片在线观看网站| 日韩欧国产精品一区综合无码| 国产精品无码翘臀在线观看| 亚洲av永久无码嘿嘿嘿| 无码中文字幕乱在线观看| 中文无码vs无码人妻| 精品少妇人妻av无码专区| 国产乱人伦中文无无码视频试看 | 成人无码午夜在线观看| 无码熟妇人妻在线视频| 人妻中文字幕无码专区| 亚洲中文字幕无码永久在线| 亚洲av无码成人精品区在线播放| 亚洲日韩精品无码专区| 久久精品无码一区二区WWW| 午夜福利av无码一区二区| 亚洲热妇无码AV在线播放| 一本一道AV无码中文字幕| 亚洲人成影院在线无码观看| 精品一区二区无码AV| 粉嫩高中生无码视频在线观看| 波多野结AV衣东京热无码专区| av无码aV天天aV天天爽|