一種基于逆向最大匹配的中文分詞算法制造技術

技術編號：8489811 閱讀：238 留言：0更新日期：2013-03-28 11:23

本發明專利技術公開了一種基于逆向最大匹配的中文分詞算法。包括步驟：先在內存中初始化三個對象，然后輸入需要進行分詞操作的文本內容，根據字符編碼將文本中的字符拆分成不同類型。在將文本拆成短句后，按照字符編碼，將不屬于中文字符的直接加入到分詞結果中，然后根據字符串匹配決策機制，將句子進行拆分字符組，根據逆向最大匹配算法將字符組與分詞字典中相匹配，將匹配的字符組存入分詞結果集中，最后組合相連的未匹配的字符，并加入到分詞結果中，完成分詞。本發明專利技術提供了一種基于詞典的快速分詞算法，在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能領域的文本分析技術，特別涉及應用于互聯網產品中的搜索引擎、數據挖掘等功能人工智能領域數據挖掘的分類技術。
技術介紹
在信息量猛增，逐漸呈現爆棚趨勢的今天，做為接收信息及傳播信息量最大的互聯網行業更是一直被一個問題困擾著，那就是面對網站里那些繽紛繁多的信息，如何讓用戶快速準確搜索定位到自己所需要的資源。目前廣泛應用于互聯網產品中的是中文分詞技術，它通過拆分、匹配詞典的方式將一段文本拆分成多個詞，幫助計算機“理解”文本的核心內容。比如搜索引擎、數據挖掘等功能的實現都依托與強大的分詞技術。但是中文分詞技術的停滯不前便是一直阻礙中文搜索質量提高的至關重要的因素。對于中文來說，詞是承載語義的最小單位，這就好像把英文單詞之間的空格都去掉，我們看到的是一片沒有意義的字母。因此，中文自動分詞就成為中文知識管理系統必須解決的問題。單個漢字一般很難單獨表達一定的含義，而中文的詞是沒有自然分隔符的，需要采取一定的技術手段將詞準確的分離出來。中文分詞的主要困難在于切分歧義消解和未登錄詞語的識別。所以，如何提高分詞的準確率、分詞速度，是目前中文的信息處理技術需要解決的技術問題。
技術實現思路
本專利技術針對互聯網上的產品在搜索定位所需資源過程中存在分詞精確度較低、未登錄詞識別不準確、性能較低等問題，提供一種基于逆向最大匹配的中文分詞算法。本專利技術的目的是提供一種基于詞典的快速分詞算法，在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。為此，本專利技術公開了一種基于逆向最大匹配的中文分詞算法。所述中文分詞算法步驟如下步驟一...

【技術保護點】
一種基于逆向最大匹配的中文分詞算法，其特征在于，包括以下步驟：步驟一、輸入需要進行分詞操作的文本內容；步驟二、根據字符編碼類型將文本中的所有字符在字符編碼類型發生變換處截斷，以由此拆分成多個長句段；步驟三、再根據停頓詞詞典檢索所有長句段中的停頓詞字符，在停頓詞字符處，將上述拆分出的長句段進一步拆分成短句段；步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段，并且將不屬于中文字符類型的短句段分解后直接加入到分詞結果集中；步驟五、將中文字符類型的短句段以逆于書寫順序的方式，從短句段段尾開始，先選取兩位字符的字符組，將這兩位字符作為分詞與分詞字典數據庫中的分詞進行匹配，若匹配成功，則將這兩位字符直接加入到分詞結果集中，并且在短句段段尾刪除已經加入到分詞結果集中的字符，再從段尾選取新的兩位字符；若匹配不成功，則繼續向段首方向再增加一位字符，進行匹配，直到匹配成功，若始終不能匹配成功，則增加一位字符的工作以增加了該短句段的句首字符為止；步驟六、將所有相鄰的未得到匹配的字符一起作為分詞，加入到分詞結果集中；而將獨立的未得到匹配的字符單獨作為分詞，加入到分詞結果集中。

【技術特征摘要】

【專利技術屬性】
技術研發人員：代培，楊愛民，
申請(專利權)人：北京金和軟件股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術