• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于逆向最大匹配的中文分詞算法制造技術

    技術編號:8489811 閱讀:238 留言:0更新日期:2013-03-28 11:23
    本發明專利技術公開了一種基于逆向最大匹配的中文分詞算法。包括步驟:先在內存中初始化三個對象,然后輸入需要進行分詞操作的文本內容,根據字符編碼將文本中的字符拆分成不同類型。在將文本拆成短句后,按照字符編碼,將不屬于中文字符的直接加入到分詞結果中,然后根據字符串匹配決策機制,將句子進行拆分字符組,根據逆向最大匹配算法將字符組與分詞字典中相匹配,將匹配的字符組存入分詞結果集中,最后組合相連的未匹配的字符,并加入到分詞結果中,完成分詞。本發明專利技術提供了一種基于詞典的快速分詞算法,在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。

    【技術實現步驟摘要】

    本專利技術涉及人工智能領域的文本分析技術,特別涉及應用于互聯網產品中的搜索 引擎、數據挖掘等功能人工智能領域數據挖掘的分類技術。
    技術介紹
    在信息量猛增,逐漸呈現爆棚趨勢的今天,做為接收信息及傳播信息量最大的互 聯網行業更是一直被一個問題困擾著,那就是面對網站里那些繽紛繁多的信息,如何讓用 戶快速準確搜索定位到自己所需要的資源。目前廣泛應用于互聯網產品中的是中文分詞技 術,它通過拆分、匹配詞典的方式將一段文本拆分成多個詞,幫助計算機“理解”文本的核心 內容。比如搜索引擎、數據挖掘等功能的實現都依托與強大的分詞技術。但是中文分詞技 術的停滯不前便是一直阻礙中文搜索質量提高的至關重要的因素。對于中文來說,詞是承載語義的最小單位,這就好像把英文單詞之間的空格都去 掉,我們看到的是一片沒有意義的字母。因此,中文自動分詞就成為中文知識管理系統必須 解決的問題。單個漢字一般很難單獨表達一定的含義,而中文的詞是沒有自然分隔符的,需 要采取一定的技術手段將詞準確的分離出來。中文分詞的主要困難在于切分歧義消解和未 登錄詞語的識別。所以,如何提高分詞的準確率、分詞速度,是目前中文的信息處理技術需 要解決的技術問題。
    技術實現思路
    本專利技術針對互聯網上的產品在搜索定位所需資源過程中存在分詞精確度較低、未 登錄詞識別不準確、性能較低等問題,提供一種基于逆向最大匹配的中文分詞算法。本專利技術的目的是提供一種基于詞典的快速分詞算法,在保證了分詞精確度的情況 下大幅度的提高了詞典加載和分詞的效率。為此,本專利技術公開了一種基于逆向最大匹配的中文分詞算法。所述中文分詞算法 步驟如下步驟一、輸入需要進行分詞操作的文本內容;步驟二、根據字符編碼類型將文本中的所有字符在字符編碼類型發生變換處截 斷,以由此拆分成多個長句段;步驟三、再根據停頓詞詞典檢索所有長句段中的停頓詞字符,在停頓詞字符處,將 上述拆分出的長句段進一步拆分成短句段;步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段,并且將不屬于中 文字符類型的短句段分解后直接加入到分詞結果集中;步驟五、將中文字符類型的短句段以逆于書寫順序的方式,從短句段段尾開始,先 選取兩位字符的字符組,將這兩位字符作為分詞與分詞字典數據庫中的分詞進行匹配,若 匹配成功,則將這兩位字符直接加入到分詞結果集中,并且在短句段段尾刪除已經加入到 分詞結果集中的字符,再從段尾選取新的兩位字符;若匹配不成功,則繼續向段首方向再增加一位字符,進行匹配,直到匹配成功,若始終不能匹配成功,則增加一位字符的工作以增 加了該短句段的句首字符為止;步驟六、將所有相鄰的未得到匹配的字符一起作為分詞,加入到分詞結果集中;而 將獨立的未得到匹配的字符單獨作為分詞,加入到分詞結果集中。優選的是,所述的基于逆向最大匹配的中文分詞算法中,所述分詞詞典數據庫中 包括存儲有所有分詞數據結構的數據結構詞典WD,和存儲有所有分詞及分詞索引位置的數 據目錄詞典WL,其中所述分詞數據結構與所述分詞索引位置相對應。優選的是,所述的基于逆向最大匹配的中文分詞算法中,在數據結構詞典的第一 層存儲有單個漢字字符,作為數據結構詞典的索引目錄;在數據結構詞典的第二層存儲有 以所述單個漢字字符為詞尾的所有詞對象的索引位置和詞的長度,其中,所述詞對象的索 引位置與所述數據目錄詞典WL中的分詞索引位置相同。優選的是,所述的基于逆向最大匹配的中文分詞算法中,在數據結構詞典還包括 第三層,其中存儲有以第二層中存儲的所有詞為詞尾的所有詞對象及詞長度。優選的是,所述的基于逆向最大匹配的中文分詞算法中,短句段中的字符組在與 分詞詞典數據庫中的分詞進行匹配時,首先用字符組的詞尾的字符與數據結構詞典中的第 一層中存儲的單個漢字字符進行匹配,在該匹配的指引下,進入第二層進行匹配。優選的是,所述的基于逆向最大匹配的中文分詞算法中,在第二層中進行匹配時, 首先進行詞的長度的匹配。優選的是,所述的基于逆向最大匹配的中文分詞算法中,進入第二層中進行匹配 后,在該匹配的指引下,進入第三層進行匹配。本專利技術的有益效果是本專利技術提供了一種基于詞典的快速分詞算法,在保證了分詞精確度的情況下大幅 度的提高了詞典加載和分詞的效率。對于網絡搜索引擎來說中,中文分詞的準確與否,常常 直接影響到對搜索結果的相關度排序,提高分詞的準確率,也就提高了搜索引擎結果相關 性和準確性。分詞的速度也對搜索引擎造成直接影響,因為搜索引擎需要處理數以億計的 網頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內容更新的速度。提高分詞的速度, 也就保證了檢索的結果。附圖說明附圖1為本專利技術所述的基于逆向最大匹配的中文分詞算法的流程示意圖。具體實施方式下面結合附圖對本專利技術做進一步說明,以使本領域普通技術人員參照本說明書后 能夠據以實施。如圖1所示,本專利技術的一種基于逆向最大匹配的中文分詞算法,包括如下步驟步驟一、在內存中初始化分詞詞典數和停頓詞詞典StopWord,其中分詞詞典數據 庫中包括存儲有所有分詞數據結構的數據結構詞典WordDictionary,和存儲有所有分詞及 分詞索引位置的數據目錄詞典WordList。在數據結構詞典的第一層存儲有單個漢字字符, 作為數據結構詞典的索引目錄;在數據結構詞典的第二層存儲有以所述單個漢字字符為詞尾的所有詞對象的索引位置和詞的長度,在數據結構詞典的第三層中存儲有以第二層中存 儲的所有詞為詞尾的所有詞對象及詞長度。數據結構詞典WordDictionary中所述詞對象 和數據目錄詞典WordList中對應的分詞具有相同的索引位置;步驟二、輸入需要進行分詞操作的文本內容,根據字符編碼類型將文本中的所有 字符在字符編碼類型發生變換處截斷,以由此拆分成多個長句段,例如將“新浪為抑制謠 言傳播成立了專門的微博辟謠小組,24小時負責微博謠言的發現、甄別和處理”拆分成“新 浪為抑制謠言傳播成立了專門的微博辟謠小組”,“24”和“小時負責微博謠言的發現、甄別 和處理”;步驟三、再根據停頓詞詞典檢索所有長句段中的停頓詞字符,在停頓詞字符處,將 上述拆分出的長句段進一步拆分成短句段,例如將“中國,偉大的國家”拆分成“中國”和 “偉大的國家”;步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段,將不屬于中文字 符類型的短句段分解后直接加入到分詞結果集中;步驟五、將中文字符類型的短句段以逆于書寫順序的方式,從短句段段尾開始,先 選取兩位字符的字符組,如“中國,偉大的國家”句子,將讀取出“國家”這兩個字符,將這兩 位字符組的詞尾的字符與數據結構詞典中的第一層中存儲的單個漢字字符進行匹配,在該 匹配的指引下,進入第二層進行匹配,在第二層中進行匹配時,首先進行詞的長度的匹配, 進行完第二層的匹配后,在該匹配的指引下再進入第三層進行匹配,若匹配成功,則將這兩 位字符直接加入到分詞結果集中,并且在短句段段尾刪除已經加入到分詞結果集中的字 符,再從段尾選取新的兩位字符;若匹配不成功,則繼續向段首方向再增加一位字符,進行 匹配,直到匹配成功,若始終不能匹配成功,則增加一位字符的工作以增加了該短句段的句 首字符為止;步驟六、將所有相鄰的未得到匹配的字符一起作為分詞,加入到分詞結果集中;而 將獨立的未得到匹配的字符單獨作為分詞,加入到本文檔來自技高網...

    【技術保護點】
    一種基于逆向最大匹配的中文分詞算法,其特征在于,包括以下步驟:步驟一、輸入需要進行分詞操作的文本內容;步驟二、根據字符編碼類型將文本中的所有字符在字符編碼類型發生變換處截斷,以由此拆分成多個長句段;步驟三、再根據停頓詞詞典檢索所有長句段中的停頓詞字符,在停頓詞字符處,將上述拆分出的長句段進一步拆分成短句段;步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段,并且將不屬于中文字符類型的短句段分解后直接加入到分詞結果集中;步驟五、將中文字符類型的短句段以逆于書寫順序的方式,從短句段段尾開始,先選取兩位字符的字符組,將這兩位字符作為分詞與分詞字典數據庫中的分詞進行匹配,若匹配成功,則將這兩位字符直接加入到分詞結果集中,并且在短句段段尾刪除已經加入到分詞結果集中的字符,再從段尾選取新的兩位字符;若匹配不成功,則繼續向段首方向再增加一位字符,進行匹配,直到匹配成功,若始終不能匹配成功,則增加一位字符的工作以增加了該短句段的句首字符為止;步驟六、將所有相鄰的未得到匹配的字符一起作為分詞,加入到分詞結果集中;而將獨立的未得到匹配的字符單獨作為分詞,加入到分詞結果集中。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:代培楊愛民
    申請(專利權)人:北京金和軟件股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 91精品无码久久久久久五月天| 人妻无码久久精品| 亚洲动漫精品无码av天堂| 中文字幕无码毛片免费看| 无码人妻久久一区二区三区| 色综合久久久久无码专区| 国产精品久久久久无码av| 亚洲AV无码之日韩精品| 久久亚洲AV成人无码| 天堂无码在线观看| 人妻少妇伦在线无码专区视频| 人妻丰满熟妇A v无码区不卡| 亚洲AV综合色区无码二区爱AV| 国产精品无码久久av| 亚洲中文无码永久免| 亚洲av永久无码精品表情包| 国产乱子伦精品免费无码专区 | 亚洲AV无码国产丝袜在线观看| 色综合久久久无码网中文| 丰满熟妇乱又伦在线无码视频| 久久久久亚洲AV无码去区首| 精品成在人线AV无码免费看| 亚洲av中文无码乱人伦在线播放| 无码人妻丰满熟妇区毛片18| 中日韩亚洲人成无码网站| 色AV永久无码影院AV| 亚洲精品无码不卡在线播HE| 中文字幕无码久久久| 人妻中文无码久热丝袜| 极品无码国模国产在线观看| 亚洲精品无码久久久久YW| 中文字幕无码播放免费| 亚洲国产超清无码专区| 无码精品人妻一区二区三区中| 久久影院午夜理论片无码| 亚洲精品人成无码中文毛片| 无码av大香线蕉伊人久久| 五月天无码在线观看| 亚洲人成无码网WWW| 国产成人无码久久久精品一| 中文字幕人妻无码专区|