本發明專利技術提供了一種含有漢語字符串的分詞方法,包括:接收包含有漢語字符的字符串;對于每個字符,確定所述字符串中該字符的語義作用范圍;對于每個字符,在其語義作用范圍內,確定與該字符可匹配成詞的其他字符并構成詞。經過對每個字符的語義作用范圍的界定,體現漢語作為非線性語言和其它線性語言之間區別。從而切分出的結果詞匯可以更準確反應漢語字符中的語義劃分關系。本發明專利技術還提供了一種在字符串中檢索詞的方法,包括:確定該字符串中包含待檢索詞的字符;確定該字符的語義作用范圍內所記錄的構成的詞;確定與該待檢詞匹配的所記錄的詞。
【技術實現步驟摘要】
本專利技術涉及一種自然語言數據處理的
,特別是指包含有 漢語字符串的分詞方法及在字符串中檢索詞的方法。
技術介紹
漢語沒有單詞的概念,而是按照字來直接構成語句。在英語中, 詞和詞之間是以空格為自然分隔符的。但在漢語中,詞和詞之間沒 有明顯的分隔,所以在作漢語的信息處理的時候,就需要對漢語句 子進行分詞,即將漢字字符串中的各個漢字轉化成為漢語詞。目前 對漢語句子的分詞方法,都照搬了英文或者其他印歐語言的特點, 力圖把漢語句子切分為 一個連續的、無交疊的詞匯的序列。這種分詞方法是建立在中文字符的語義作用范圍是緊鄰左右這 一狹窄范圍的基礎上的,因此切分出來的詞匯在原句子中是連續的 中文字符構成。而這并不完全符合漢語構成句子時的構詞習慣,因 為漢語在構成句子時,并不確保每個詞匯中的每個字在句子中都是 連續出現的。從而影響了后續的應用,例如對檢索、搜索、翻譯、 摘要等應用。為了用符合漢語構成句子時的構詞習慣對含有漢語的 字符串進行分詞。就需要更準確的翻譯漢語字符中的語義劃分關系。
技術實現思路
有鑒于此,本專利技術的主要目的在于提供 一 種含有漢語的字符串的 分詞方法及在字符串中檢索詞的方法,用于限定語義作用范圍以更 準確反應漢語字符中的語義劃分關系。本專利技術提供了一種含有漢語字符串的分詞方法,包括A、 接收包含有漢語字符的字符串;B、 對于每個字符,確定所述字符串中該字符的語義作用范圍;C、 對于每個字符,在其語義作用范圍內,確定與該字符可匹配 成詞的其他字符并構成詞。由上可以看出,經過步驟B完成了對每個字符的語義作用范圍 的界定,由此體現出了漢語作為非線性語言和其它線性語言之間區 別。如此就可以在步驟C中完成語義作用范圍內的構詞匹配。從而 實現了所切分出的結果詞匯可以更準確反應漢語字符中的語義劃分 關系。優選的是,所述步驟B包括Bll、對于每個字符,設置所述字 符串中可距離該字符的最遠距離為最大跳躍長度;B21、確定所述字 符的最大跳躍長度范圍內最近的界限分隔符標點;B31、確定所述最 近的界限分隔符標點到所述字符的距離值和最大跳躍長度值中的最 小值,所述字符到該最小值距離所形成的距離區間作為所述字符的 語義作用范圍。由上可以看出,因為一個字符的語義作用范圍是不可能越過界限 分隔符標點的,所以通過步驟Bll、步驟B21和步驟B31就將每個 字符的語義作用范圍界定在既不超過最大跳躍長度范圍又不越過界 限分隔符標點的范圍內。優選的是,所述步驟B包括B12、對于每個字符,設置所述字 符串中距離該字符最遠距離為最大跳躍長度;B22、計算所述字符串 的每個字符到所述字符串一個端點的距離作為真實偏移量;B32,計 算每個字符的虛擬偏移量,虛擬偏移量=真實偏移量+所述端點與該 字符之間的界限分隔符標點的數量x不小于最大跳躍長度的數值; B42,對于每個字符,與該字符虛擬偏移量值之差小于最大跳躍長度 值的其他字符組成該字符的語義作用范圍。由上可以看出,虛擬偏移量體系是在真實偏移量即機械字符的基 礎上,考慮了界限分隔符標點的劃界作用而產生的對字符的語義位 置進行描述的體系。在步驟B32中將界限分隔符標點的權重設為不小于最大跳躍長度的數值。這樣就保證了在進行語義作用范圍界定 的時候絕對不會越過界限分隔符標點。并且因為有了定量的位置體 系,所以在虛擬偏移量的基礎上可以非常方便的進行進一步的處理。優選的是,步驟C中構成詞為采用非線性切分法構成詞,包括 在該字符的語義作用范圍內,依次判斷與該字符非連續的匹配的跳 詞構成詞。由上可以看出,經過本步驟可以在有效的界定了字符的語義作用 范圍之后,在所述語義作用范圍之內進行有效的非線性詞匯的切分。優選的是,所述界限分隔符標點包括句號、逗號、分號、問號和 感嘆號以及所包含字符的長度之和超過最大跳躍長度的引號或括號。由上可以看出,標點符號被分為了界限分隔符標點和非界限分隔 符標點。界限分隔符標點是刻畫了語義作用范圍的標點,通??梢?理解為被用來斷句的標點。例如句號、逗號、分號、問號和感嘆號 等。對于所包含字符的長度之和超過最大跳躍長度的引號或括號也 被視為界限分隔符。其他的對語義作用范圍沒有影響的標點則被視 為非界限分隔符標點。例如所包含字符的長度之和沒有超過最大跳躍長度的引號。非界限分隔符標點被視為普通的字符。優選的是,步驟C中構成詞的步驟還包括采用線性切分法構 成詞。由上可以看出,經過本步驟還可以在所述語義作用范圍之內進行 有效的線性詞匯的切分。優選的是,所述線性切分法包括至少以下之一正向最大匹配法、 逆向最大匹配法、雙向最大匹配法、逐詞遍歷匹配法、最大似然概 率法、或切割標志法。優選的是,所述步驟C后還包括,D、記錄所構成的詞以及各個 詞之間的語義關系。由上可以看出,經過本步驟可以在切分出結果詞匯不僅記錄詞匯 還記錄各個詞匯之間的語義關系。優選的是,步驟D所述記錄各個詞之間的語義關系包括Dl, 將所有構成的詞按照在字符串中的位置進行排序,包括根據各個 詞的第一個字符在字符串中的先后位置對各個詞進行先后排序;且, 當不同詞的第 一個字符在字符串中的位置相同時,根據詞的最后一 個字符在字符串中的先后位置對不同詞進行先后排序;且,當不同 詞的第一個字符和最后一個字符在字符串中的位置一樣時,根據詞 所包含字符數量值對不同詞進行先后排序;D2,為每個字符記錄其 所屬詞的詞匯序列號。由上可以看出,所述詞匯序列號包含了詞匯之間的語義關系。記 錄記錄各個詞的詞匯序列號就記錄了各個詞之間的語義關系。本專利技術還提供了一種在字符串中檢索詞的方法,其特征在于,包括M、確定該字符串中包含待檢索詞的字符;N、確定該字符的語義作用范圍內所記錄的構成的詞;0、確定與該祠4全詞匹配的所記錄的詞。附圖說明圖1為對字符串進行分詞的預處理流程圖; 圖2為一個實施例中一個示例字符串及其對應的真實偏移量記 錄結果示意圖3為計算字符的虛擬偏移量的流程圖4為一個實施例中一個示例字符串及其對應的虛擬偏移量記 錄結果示意圖5為同時記錄了虛擬偏移量和真實偏移量的記錄結果示意圖; 圖6為一個同時記錄了虛擬偏移量和真實偏移量的句子的記錄 結果示意圖7為一個示例語句的字符串的示意圖8為采用了正向最大匹配法以及逆向最大匹配法的分詞方案 對圖7中的示例字符串切分得到的結果示意7圖9為非線性切分的流程圖10為含有跳詞情況的示例語句的字符串的示意圖; 圖11為本實施例中將切分出來的分詞結果進行立體關聯得到立 體分詞結果的流程圖12為記錄的具有歧義的示例語句的第一種切分結果的示意圖13為記錄的具有歧義的示例語句的第二種切分結果的示意圖14為記錄了具有歧義的示例所有可能的切分結果的示意圖15為錯誤跳詞的示例語句字符串的示意圖16為帶真實偏移量的字符串的示意圖17為帶了虛擬偏移量的字符串的示意圖18為切分出的結果示意圖19為帶真實偏移量的切分結果示意圖20為帶虛擬偏移量的切分結果示意圖21為使用真實偏移量而產生跳詞錯誤的切分結果的示意圖22為使用虛擬偏移量而避免了跳詞錯誤的切分結果的示意圖23為使用真實偏移量而記錄了錯誤跳詞的記錄結果的示意圖24為使用虛擬偏移量而避免了跳詞錯誤的記錄結果的示意圖25為帶虛擬偏移量的多種跳詞示例語句字符串的示意圖; 圖26為本文檔來自技高網...
【技術保護點】
一種含有漢語的字符串的分詞方法,其特征在于,包括: A、接收包含有漢語字符的字符串; B、對于每個字符,確定所述字符串中該字符的語義作用范圍;?。谩τ诿總€字符,在其語義作用范圍內,確定與該字符可匹配成詞的其他字符并構成詞。
【技術特征摘要】
【專利技術屬性】
技術研發人員:吳長林,陳飔,
申請(專利權)人:吳長林,
類型:發明
國別省市:81[中國|廣州]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。