本申請實施例提供了一種語種識別中的特征融合方法、裝置及計算機存儲介質。根據本申請實施例提供的特征融合方案,獲取待識別文本,確定所述待識別文本中所包含字符的字符順序和文本長度,分別生成所述待識別文本的字符時序特征、編碼區間特征、單詞特征和字符特征,其中,所述字符時序特征、編碼區塊特征、單詞特征和字符特征中所包含的特征單元的順序與所述字符順序相同,所述字符時序特征、編碼區塊特征、單詞特征和字符特征的長度與所述文本長度相同;融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多特征表示向量,實現對待識別文本從字符、單詞、編碼區間、字符時序四個維度進行特征提取和融合。四個維度進行特征提取和融合。四個維度進行特征提取和融合。
【技術實現步驟摘要】
一種語種識別中的特征融合方法、裝置及計算機存儲介質
[0001]本申請實施例涉及計算機
,尤其涉及一種語種識別中的特征融合方法、裝置及計算機存儲介質。
技術介紹
[0002]在語種識別中通常使用基于自注意力的神經網絡模型,提取文本的字符特征,或者單詞特征作為模型的輸入。在這種方式下,使用的特征單一且往往忽視局部特征,導致模型的識別效果較差。
[0003]例如,由于字符特征中的高頻字符不具備區分性,導致共用高頻字符的語言間較難區分;同時,單詞特征詞匯表巨大,無法覆蓋所有語言出現的單詞,導致在實際應用中包含低頻單詞的文本的預測準確率較低;以及,在語種識別中,訓練語料通常使用長文本,往往忽視了語料中所包含的局部特征,這導致訓練得到的模型對于短文本的識別效果較差。
[0004]基于此,需要一種更全面的綜合多方面特征的特征融合方案,以提高語種識別的準確率。
技術實現思路
[0005]有鑒于此,本申請實施例提供一種更全面的綜合多方面特征的特征融合方案,以至少部分解決上述問題。
[0006]根據本申請實施例的第一方面,提供了一種語種識別中的特征融合方法,包括:獲取待識別文本,確定所述待識別文本中所包含字符的字符順序和文本長度;分別生成所述待識別文本的字符時序特征、編碼區間特征、單詞特征和字符特征,其中,所述字符時序特征、編碼區塊特征、單詞特征和字符特征中所包含的特征單元的順序與所述字符順序相同,所述字符時序特征、編碼區塊特征、單詞特征和字符特征的長度與所述文本長度相同;融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多特征表示向量。
[0007]根據本申請實施例的第二方面,提供了一種語種識別中的特征融合裝置,包括:確定模塊,獲取待識別文本,確定所述待識別文本中所包含字符的字符順序和文本長度;特征生成模塊,分別生成所述待識別文本的字符時序特征、編碼區間特征、單詞特征和字符特征,其中,所述字符時序特征、編碼區塊特征、單詞特征和字符特征中所包含的特征單元的順序與所述字符順序相同,所述字符時序特征、編碼區塊特征、單詞特征和字符特征的長度與所述文本長度相同;融合模塊,融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多特征表示向量。
[0008]根據本申請實施例的第三方面,提供了一種電子設備,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;所述存儲器用于存放至少一可執行指令,所述可執行指令使所述處理器執行如第一方面所述的特征融合方法對應的操作。
[0009]根據本申請實施例的第四方面,提供了一種計算機存儲介質,其上存儲有計算機
程序,該程序被處理器執行時實現如第一方面所述的特征融合方法。
[0010]根據本申請實施例提供的特征融合方案,獲取待識別文本,確定所述待識別文本中所包含字符的字符順序和文本長度,分別生成所述待識別文本的字符時序特征、編碼區間特征、單詞特征和字符特征,其中,所述字符時序特征、編碼區塊特征、單詞特征和字符特征中所包含的特征單元的順序與所述字符順序相同,所述字符時序特征、編碼區塊特征、單詞特征和字符特征的長度與所述文本長度相同;融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多特征表示向量,實現對待識別文本從字符、單詞、編碼區間、字符時序四個維度進行特征提取和融合,從而使得提取得到的多特征表示向量綜合了局部特征和全局特征,基于融合得到的多特征表示向量進行模型的訓練和識別,可以顯著增加語種識別的準確率。
附圖說明
[0011]為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請實施例中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0012]圖1為本申請實施例所提供的一種語種識別中的特征融合方法的流程示意圖;
[0013]圖2為本申請實施例所提供的一種生成的各特征的示意圖;
[0014]圖3為本申請實施例提供的一種基于多特征表示向量進行模型訓練的示意圖;
[0015]圖4為本申請實施例所提供的一種基于多特征表示向量進行多頭自注意力的模型訓練的示意圖;
[0016]圖5a為本申請實施例所提供的一種字符所涉及的窗口的示意圖;
[0017]圖5b為本申請實施例所提供的一種單詞所涉及的窗口的示意圖;
[0018]圖6為本申請實施例所提供的一種語種識別中的特征融合裝置的結構示意圖;
[0019]圖7為根據本申請實施例五的一種電子設備的結構示意圖。
具體實施方式
[0020]為了使本領域的人員更好地理解本申請實施例中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本申請實施例一部分實施例,而不是全部的實施例?;诒旧暾垖嵤├械膶嵤├?,本領域普通技術人員所獲得的所有其他實施例,都應當屬于本申請實施例保護的范圍。
[0021]下面結合本申請實施例附圖進一步說明本申請實施例具體實現。如圖1所示,圖1為本申請實施例所提供的一種語種識別中的特征融合方法的流程示意圖,包括:
[0022]S101,獲取待識別文本,確定所述待識別文本中所包含字符的字符順序和文本長度。
[0023]字符順序即指的是待識別文本中的字符的順序,其中,待識別文本中的字符也包括了在文本中的字符之間的分隔符號,例如,分隔符號包括字符間的空格號,文本的結尾符號等等。
[0024]例如,對于文本“Cl
é?
USB”,其中所包含的字符即可以是“C”、“l”、
“é”
、“[B]”、“U”、
“
S”、“B”和“[E]”,其中的字符“[B]”即為分隔符,字符“[E]”即為結尾符。其字符順序即為依次的從字符“C”指向“[E]”的順序。
[0025]文本長度即為從字符“C”到字符“[E]”的字符的數量,對于文本“Cl
é?
USB”而言,其文本長度即為8。
[0026]S103,分別生成所述待識別文本的字符時序特征、編碼區間特征、單詞特征和字符特征。
[0027]字符時序特征、編碼區塊特征、單詞特征和字符特征的長度與所述文本長度相同指的是各特征分別包含有與文本長度相同的多個特征單元(例如,對于長度為8的文本Cl
é?
USB”,生成的各特征即包含有8個特征單元),在同一特征中所包含的的特征單元與文本中所包含的字符一一對應,各特征單元的順序也與字符順序所對應。參見圖2,圖2為本申請實施例所提供的生成的各特征的示意圖。
[0028]具體而言,字符特征即指的是待為別文本中所包含的各字符。包括了其中所包含的分隔符和結尾符。例如對于文本“Cl
é?
USB”,可以根據之前已經確定的各字符順序得到對應于各本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種語種識別中的特征融合方法,包括:獲取待識別文本,確定所述待識別文本中所包含字符的字符順序和文本長度;分別生成所述待識別文本的字符時序特征、編碼區間特征、單詞特征和字符特征,其中,所述字符時序特征、編碼區塊特征、單詞特征和字符特征中所包含的特征單元的順序與所述字符順序相同,所述字符時序特征、編碼區塊特征、單詞特征和字符特征的長度與所述文本長度相同;融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多特征表示向量。2.如權利要求1所述的方法,其中,融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多維度向量,包括:對所述字符時序特征、編碼區塊特征、單詞特征和字符特征進行加和,生成多特征表示向量;或者,對所述字符時序特征、編碼區塊特征、單詞特征和字符特征進行拼接,生成多特征表示向量。3.如權利要求2所述的方法,其中,融合所述字符時序特征、編碼區塊特征、單詞特征和字符特征生成多特征表示向量,包括:對生成的多特征表示向量進行線性變換或者非線性變換,得到變換后的多特征表示向量。4.如權利要求1所述的方法,其中,所述待識別文本的單詞特征通過以下方式生成;確定所述待識別文本的單詞中所包含的子詞以及子詞順序,所述子詞包括所述單詞中所包含的前綴、后綴或者詞根;將所述單詞按照所述字詞進行切分,按照子詞順序生成所述待識別文本的單詞特征。5.如權利要求1所述的方法,其中,所述方法還包括:確定所述多特征表示向量的轉置向量,將所述多特征表示向量的轉置向量與所述多特征表示向量相乘,生成原始信息矩陣;確定與所述原始信息矩陣規模相同的多個遮罩矩陣,所述多個遮罩矩陣中包含有不同規模的矩陣窗口遮罩;分別相加所述原始信息矩陣和所述多個遮罩矩陣,得到多個特征矩陣;分別對所述多個特征矩陣進行...
【專利技術屬性】
技術研發人員:任星彰,張海波,駱衛華,
申請(專利權)人:阿里巴巴新加坡控股有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。