本發(fā)明專利技術(shù)公開了一種基于啟發(fā)式算法的模糊英文長句分詞方法,采用啟發(fā)式算法中的模擬退火算法來處理模糊英文長句分詞問題,以解決機(jī)器識別聲音時,只能根據(jù)聲音的停頓來區(qū)分單詞無法對連讀進(jìn)行分詞問題。基于啟發(fā)式算法的模糊英文長句分詞方法中將原模糊英文長句通過01編碼,進(jìn)行問題的抽象。通過模擬退火算法對解空間的搜索、計算評價函數(shù)值、判定是否接受當(dāng)前解和退火降溫一系列步驟的多次迭代,從而獲得較好的分詞效果,并根據(jù)本方法中所提出的可閱讀性判定函數(shù)為依據(jù),表明基于啟發(fā)式算法的分詞方法在解決模糊英文長句分詞問題時具有較好的效果。
A fuzzy English long sentence segmentation method based on heuristic algorithm
The present invention discloses a kind of fuzzy English sentence segmentation method based on heuristic algorithm, the simulated annealing algorithm in heuristic algorithm to deal with fuzzy English sentence segmentation problem, to solve the machine recognition voice, only according to the voice of the pause to distinguish words cannot even read word problems. A fuzzy English long sentence segmentation method based on heuristic algorithm is used to abstract the original fuzzy long sentences in English through 01 encoding. The simulated annealing algorithm to search the solution space, calculated to determine whether to accept the current solution and annealing multiple iterations of a series of steps of the evaluation function value, and to obtain good segmentation results, and can be read according to the decision function on the basis of the proposed method, segmentation method BenQ heuristic algorithm has better effect on solving the problem of fuzzy English sentence segmentation.
【技術(shù)實現(xiàn)步驟摘要】
一種基于啟發(fā)式算法的模糊英文長句分詞方法
本專利技術(shù)涉及一種涉及人工智能和自然語言處理的分詞技術(shù),尤其是一種基于啟發(fā)式算法的模糊英文長句分詞方法。
技術(shù)介紹
在當(dāng)今的信息社會中,人工智能和自然語言處理相關(guān)的研究和技術(shù)飛速發(fā)展,應(yīng)用的范圍也越來越廣,本專利技術(shù)是考慮到一些特定的場景,例如,一般會議的記錄都是人工記錄,同時輔助以錄音進(jìn)行整理,對于會議報道和記錄人員來說就不得不將大量的時間花費在整理會議相關(guān)發(fā)言上。如果采用更加智能的方法來代替人工,對會議發(fā)言進(jìn)行整理,就需要讓機(jī)器能夠識別出一段口語中是如何進(jìn)行分詞的。自然語言處理中,分詞主要面向的是類似漢語這樣的象形文字,這些文字在組成句子時沒有語法上的分割;對于類似于英語這樣的拼音文字,通常不存在分詞的問題。但是一旦遇到上述問題,往往解決的方法比較少。
技術(shù)實現(xiàn)思路
技術(shù)問題:本專利技術(shù)提供一種應(yīng)對英文文本單詞之間間隙不清或者難以識別的情況,減少了整理和編寫語料庫的復(fù)雜工作的基于啟發(fā)式算法的模糊英文長句分詞方法。技術(shù)方案:本專利技術(shù)的基于啟發(fā)式算法的模糊英文長句分詞方法,在某些特定的情況下,英文長句詞與詞之間的間隙不明顯,需要進(jìn)行長句分詞,減少閱讀的障礙。模糊英文長句分詞方法是典型的NP-hard問題,適用于采用啟發(fā)式算法來進(jìn)行分詞操作。使用啟發(fā)式算法進(jìn)行模糊英文長句分詞之后,可閱讀性得到顯著提高。所述的基于啟發(fā)式算法的模糊英文長句分詞方法,所述的英文長句詞與詞之間的間隙不明顯的特定情況包括:通過機(jī)器識別聲音時,只能根據(jù)聲音的停頓來區(qū)分單詞,對于連詞無法進(jìn)行分詞。本專利技術(shù)的基于啟發(fā)式算法的模糊英文長句分詞方法,包括以下步驟:1)對待分詞的英文長句進(jìn)行編碼,編碼后的文本作為啟發(fā)式算法的輸入;2)通過啟發(fā)式算法對編碼后的文本進(jìn)行迭代計算,獲得使得評價函數(shù)值達(dá)到最優(yōu)的解;3)對所述步驟2)中啟發(fā)式算法得出的解,恢復(fù)出新分詞結(jié)果后的英文長句,并對恢復(fù)出的英文長句進(jìn)行可閱讀性計算。進(jìn)一步的,本專利技術(shù)方法中,步驟1)中的對待分詞的英文長句進(jìn)行編碼的具體方式為:采用對每個單詞字符進(jìn)行01編碼的方式進(jìn)行問題的抽象,‘0’表示該句子在當(dāng)前位置沒有進(jìn)行分詞,‘1’表示該句子在當(dāng)前位置進(jìn)行分詞,通過這樣的方法將原英文長句編碼為01文本。進(jìn)一步的,本專利技術(shù)方法中,步驟2)中的啟發(fā)式算法采用模擬退火算法。進(jìn)一步的,本專利技術(shù)方法中,模擬退火算法包括以下步驟:(1)解空間的搜索:使用模擬退火算法的非確定性搜索,隨機(jī)擾動‘0’和‘1’,即以隨機(jī)的概率將‘0’變?yōu)椤?’或者將‘1’變?yōu)椤?’,這種擾動是與當(dāng)前的溫度成正比,每次迭代的過程中,隨著溫度的降低,擾動的邊界會逐漸縮小;(2)評價函數(shù)的設(shè)計:用分詞結(jié)果的分詞得分和分塊得分的和作為評價函數(shù),所述分詞得分是指對分詞結(jié)果中每個唯一的詞算分的結(jié)果;所述分塊得分是指每個分塊中包含單詞的數(shù)量;(3)接受準(zhǔn)則:若當(dāng)前解小于原始解,則接受當(dāng)前解并進(jìn)入下一次的迭代;若當(dāng)前解大于原始解則以的概率接受當(dāng)前解,T表示這次迭代的溫度;(4)退火方式:用作為收斂函數(shù),其中T0表示初始溫度,t表示當(dāng)前溫度。本專利技術(shù)方法對恢復(fù)后的英文長句進(jìn)行可閱讀性計算,通過每個分塊中包含單詞數(shù)量與錯誤單詞數(shù)量的加權(quán)和來進(jìn)行衡量,以判斷經(jīng)過啟發(fā)式算法之后的分詞結(jié)果與完全正確的分詞結(jié)果之間的吻合程度。引入可閱讀性計算的目的是判斷,經(jīng)過啟發(fā)式算法分詞得出的結(jié)果與完全正確的分詞結(jié)果之間的吻合度。非人工的分詞方法目前還不能達(dá)到完全正確的結(jié)果。通過可閱讀性計算,可以判斷某一分詞方式與完全正確的分詞結(jié)果之間的相似程度,以判斷這一分詞方法的好壞程度。進(jìn)一步的,本專利技術(shù)方法中,步驟3)中按照下式計算對恢復(fù)出的英文長句的可閱讀性進(jìn)行計算:其中readability為恢復(fù)出的英文長句的可閱讀性,block_num表示分塊的數(shù)量,即改英文長句分成多少個單詞,word_num表示該英文長句中按完全正確的方式進(jìn)行分詞包含的單詞數(shù)量,blockvalue表示每一分塊的可閱讀性,其計算公式為;其中,incorrect_num表示錯誤字符的數(shù)量,即這一個分塊中不正確的字母的數(shù)量。有益效果:本專利技術(shù)與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:本專利技術(shù)有兩個方面的優(yōu)勢,第一,傳統(tǒng)的對于英文的分詞研究較少,并且僅能夠做到斷句和去除停詞等基本工作,而本方法實現(xiàn)了英文的分詞。第二,傳統(tǒng)的分詞方法是基于詞庫和語料庫的,比如斯坦福大學(xué)提供的分詞工具NLTK,而本方法不依賴于任何的前期工作,僅從待分詞的文本出發(fā),減少了整理和編寫語料庫的復(fù)雜工作。附圖說明圖1是本專利技術(shù)分詞操作的流程圖。圖2是本專利技術(shù)中模擬退火算法的算法應(yīng)用框架圖。圖3是本專利技術(shù)評價函數(shù)模型示意圖。具體實施方式下面結(jié)合實施例和說明書附圖對本專利技術(shù)作進(jìn)一步的說明。請參考圖1,其示出了本專利技術(shù)進(jìn)行分詞操作的基本流程圖。首先,根據(jù)輸入的模糊英文長句文本,對其進(jìn)行01編碼并且計算當(dāng)前解的評價函數(shù)值。隨機(jī)擾動編碼后文檔中‘0’和‘1’的值,獲得新的當(dāng)前解,并計算當(dāng)前解的評價函數(shù)值。將當(dāng)前解的評價函數(shù)值和原解的評價函數(shù)值進(jìn)行對比,如果當(dāng)前解的評價函數(shù)值小于原解,說明當(dāng)前解的分詞效果更優(yōu),接納當(dāng)前解為最優(yōu)解;如果當(dāng)前解的評價函數(shù)值大于原解的評價函數(shù)值,以的概率接受當(dāng)前解為最優(yōu)解。之后判斷是否達(dá)到每一溫度下的迭代次數(shù),如果未達(dá)到當(dāng)前的迭代次數(shù),重新進(jìn)行解空間的搜索。否則判斷是否達(dá)到了整個分詞的終止條件,即當(dāng)前的溫度已經(jīng)到達(dá)臨界溫度,則輸出當(dāng)前的最優(yōu)解即為分詞的最優(yōu)解;否則執(zhí)行收斂函數(shù),改變溫度值重新進(jìn)行解空間的搜索以獲得更優(yōu)的解。最后通過本方法中的可閱讀性度量來判斷當(dāng)前最優(yōu)解是否能夠滿足正常人類閱讀。請參考圖2,其示出了本專利技術(shù)模擬退火算法的算法應(yīng)用框架圖。本專利技術(shù)中函數(shù)evaluate作為評價函數(shù)來計算分詞的效果,函數(shù)flip_n用來搜索解空間以使得評價函數(shù)得到最優(yōu),如果當(dāng)前解優(yōu)于原解,則接受當(dāng)前解;如果當(dāng)前解的評價函數(shù)值大于原解的評價函數(shù),則以概率來接受當(dāng)前解從而避免局部優(yōu)化。初始解由待分詞的模擬錄音的文本根據(jù)‘01’編碼之后產(chǎn)生。搜索解空間的目的是為了尋找使得評價函數(shù)能夠達(dá)到最優(yōu)情況下,‘0’,‘1’編碼的排列方式。針對某一短語,如a:doyouseethekitty(對應(yīng)的編碼:a:0000000000000001),我們沒有可以參考的詞典來輔助得到應(yīng)當(dāng)將這個短語從某一位置斷開。使用模擬退火算法的非確定性搜索,即隨機(jī)搜索的方法,隨機(jī)擾動‘0’和‘1’,并且這種擾動是與當(dāng)前的“溫度T”成正比,每次迭代的過程中,隨著溫度的降低,擾動的邊界會逐漸縮小。請參考圖3,其示出了本專利技術(shù)評價函數(shù)模型示意圖。SEGMENTATION表示的是一個分詞的結(jié)果。在這個分詞結(jié)果中唯一的詞在LEXICON表中列出,并對每一個詞進(jìn)行算分,得分存在LEXICON中,DERIVATION是分塊得分,其值為所有分塊中包含的單詞的數(shù)量之和。兩者相加即為總得目標(biāo)得分,該目標(biāo)得分越小則分詞效果就越好,也就越接近我們?nèi)斯ぷR別的目標(biāo)。如‘doyou’的分詞得分為單詞長度5加上邊界1即為6,其他詞計算方法類似;分塊得分就是每個塊包含的單詞數(shù)量,如第一個1|2|4|6,其得分為4,依次類推,最終得到分詞得分為33,分塊得分為14,兩者相加即為總得目標(biāo)得分,該目標(biāo)得分越本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】
一種基于啟發(fā)式算法的模糊英文長句分詞方法,其特征在于,該方法包括以下步驟:1)對待分詞的英文長句進(jìn)行編碼,編碼后的文本作為啟發(fā)式算法的輸入;2)通過啟發(fā)式算法對編碼后的文本進(jìn)行迭代計算,獲得使得評價函數(shù)值達(dá)到最優(yōu)的解;3)對所述步驟2)中啟發(fā)式算法得出的解,恢復(fù)出新分詞結(jié)果后的英文長句,并對恢復(fù)出的英文長句進(jìn)行可閱讀性計算。
【技術(shù)特征摘要】
1.一種基于啟發(fā)式算法的模糊英文長句分詞方法,其特征在于,該方法包括以下步驟:1)對待分詞的英文長句進(jìn)行編碼,編碼后的文本作為啟發(fā)式算法的輸入;2)通過啟發(fā)式算法對編碼后的文本進(jìn)行迭代計算,獲得使得評價函數(shù)值達(dá)到最優(yōu)的解;3)對所述步驟2)中啟發(fā)式算法得出的解,恢復(fù)出新分詞結(jié)果后的英文長句,并對恢復(fù)出的英文長句進(jìn)行可閱讀性計算。2.如權(quán)利要求1所述的基于啟發(fā)式算法的模糊英文長句分詞方法,其特征在于,所述步驟1)中的對待分詞的英文長句進(jìn)行編碼的具體方式為:采用對每個單詞字符進(jìn)行01編碼的方式進(jìn)行問題的抽象,‘0’表示該句子在當(dāng)前位置沒有進(jìn)行分詞,‘1’表示該句子在當(dāng)前位置進(jìn)行分詞,通過這樣的方法將原英文長句編碼為01文本。3.如權(quán)利要求1所述的基于啟發(fā)式算法的模糊英文長句分詞方法,其特征在于,所述步驟2)中的啟發(fā)式算法采用模擬退火算法。4.如權(quán)利要求3所述的基于啟發(fā)式算法的模糊英文長句分詞方法,其特征在于,所述模擬退火算法包括以下步驟:(1)解空間的搜索:使用模擬退火算法的非確定性搜索,隨機(jī)擾動‘0’和‘1’,即以隨機(jī)的概率將‘0’變?yōu)椤?’或者將‘1’變?yōu)椤?’,這種擾動是與當(dāng)前的溫度成正比,每次迭代的過程中,隨著溫度的降低,擾動的邊界會逐漸縮小;(2)評價函數(shù)的設(shè)計:用分詞結(jié)果的分詞得分和分塊得分的和作為評價函數(shù),所述分詞得分是指對分詞結(jié)果中每...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:段鵬飛,李必信,
申請(專利權(quán))人:東南大學(xué),
類型:發(fā)明
國別省市:江蘇,32
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。