【技術實現步驟摘要】
本專利技術涉及深度學習、方面情感分析的,更具體地,涉及一種細粒度情感元素抽取方法及系統。
技術介紹
1、隨著社交媒體、在線評論和數字化交流的普及,情感分析逐漸成為企業了解公眾情緒、產品評價和社會趨勢的關鍵工具,情感分析的任務就是挖掘出公眾的情感傾向,如喜怒哀樂等。而傳統的情感分析已經無法滿足當前企業需求,更加細粒度的分析對企業了解用戶需求更為關鍵。如“我喜歡這部手機。”這句話含有積極情感,但是對于實際的應用是遠遠不夠的。再如“手機的拍照功能很好,但外觀有點丑。”僅從整個句子上去理解這句話,很難判斷出對“手機”的情感傾向。因為“拍照功能”是正面的,“外觀”是負面的。為了更準確地分析結果,需要使用細粒度的情感分析方法,方面情感分析便是其中一種廣受關注的細粒度的情感分析方法。方面情感分析可以進行更完整的情感分析,發現文本的各個方面對象,并確定文本針對每個方面所表達的情感信息,使得情感分析更為精準和具體,有助于深入理解人們在交流中所表達的情感。
2、方面情感分析著眼于提取文本中的實體目標(也稱方面詞a),并確定該方面詞a所擁有的情感信息,如觀點詞o,方面類別c和情感極性s,一條文本可能存在多種以上所描述的方面情感四元組(方面詞a、觀點詞o、方面類別c和情感極性s)。如果從文本表征的方式去做分類,主要分為兩個派別,其中一種是基于令牌的表征,在這種分類方式中,文本被分解為單獨的令牌(例如單詞或子詞),每個令牌被視為獨立的單元,并且對每個令牌進行表示。這意味著每個令牌都有自己的特征向量,模型關注單個令牌的特征。相對于令牌表征,另外
3、但在進行細粒度情感分析時,一個顯著的挑戰是如何在評論語句中建立方面詞與其相應觀點詞之間的聯系,尤其是考慮到一個評論可能包含多個方面詞和觀點詞的情況。這種復雜性源于評論語句的多樣性,其中表達方式各異。在處理這個問題的同時,需要考慮到不同評論語句可能具有不同的表達形式。有些評論可能具有句子結構規整的特性,這為劃分不同方面詞與觀點詞對提供了一定的線索。因此,研究如何有效利用句子結構規整的特性,以更精準地建立方面詞與觀點詞之間的聯系,進行細粒度情感元素抽取,成為一個具有深遠研究意義的課題。
技術實現思路
1、為解決在進行細粒度情感分析時,如何精準抽取情感四元組,建立方面詞與其相應觀點詞之間的聯系的問題,本申請中提出了一種細粒度情感元素抽取方法及系統,提高細粒度情感分析的準確性。
2、為解決上述問題,本申請采用的技術方案為:
3、一方面,本申請提出一種細粒度情感元素抽取方法,包括以下步驟:
4、將獲取的自然語言文本評論序列輸入至預訓練語言模型編碼器進行編碼,得到自然語言文本評論序列基于上下文的表征;
5、構建不同長度的自然語言文本評論序列的跨度,結合表征,構建不同長度跨度的跨度表征,所有跨度表征形成原始跨度表征序列,并在原始跨度表征序列的前后分別添加含有局部結構信息的隱式方面詞標簽與隱式觀點詞標簽;
6、將添加含有局部結構信息的隱式方面詞標簽與隱式觀點詞標簽的原始跨度表征序列輸入至已訓練好的方面情感四元組抽取模型中,進行方面情感四元組抽取。
7、優選地,所述方面情感四元組抽取模型包括:
8、面向局部結構模塊,基于隱式方面詞標簽、原始跨度表征序列進行隱式方面詞預測;基于隱式觀點詞標簽、原始跨度表征序列進行隱式觀點詞預測;
9、方面詞與觀點詞解碼模塊,用于對原始跨度表征序列進行分類,得到變化的跨度表征序列,基于原始跨度表征序列和變化的跨度表征序列,分別預測出方面詞最終表征和觀點詞最終表征;
10、方面類別預測模塊,用于將方面詞最終表征和觀點詞最終表征相加,并與方面詞左側跨度的表征、方面詞右側跨度的表征進行拼接,獲取方面詞的類別;
11、方面詞與觀點詞交互模塊,分別獲取方面詞最終表征的新表示和觀點詞最終表征的新表示,將方面詞最終表征的新表示結合方面詞最終表征,進行交叉注意力機制計算,然后獲取每個方面詞對應的觀點詞以及情感極性概率;將觀點詞最終表征的新表示結合觀點詞最終表征,進行交叉注意力機制計算,然后獲取每個觀點詞對應的方面詞以及情感極性概率;
12、推理篩選合并模塊,用于將方面詞的類別、方面詞最終表征、觀點詞最終表征和情感極性進行合并操作,并進行方面情感四元組置信度篩選,抽取出最終的方面情感四元組。
13、優選地,利用梯度下降法訓練方面情感四元組抽取模型,得到已訓練好的方面情感四元組抽取模型。
14、優選地,獲取的自然語言文本評論序列表示為,其中,n表示自然語言文本評論序列的長度,表示自然語言文本評論序列中第 i個單詞,經預訓練語言模型編碼器進行編碼后,得到自然語言文本評論序列基于上下文的表征,表征表示為:};設定最大跨度長度為l,采用滑動窗口的方式,從1到l,依次構建不同長度的自然語言文本評論序列的跨度:
15、;
16、結合表征,構建不同長度跨度的跨度表征,每一個長度跨度內的多個單詞構成一個跨度表征,從1到l中,第j個跨度長度表示為:
17、
18、所有跨度表征形成原始跨度表征序列,為:;其中,start表示自然語言文本評論序列基于上下文的表征中跨度的起始位置,end表示自然語言文本評論序列基于上下文的表征中跨度的結束位置; m表示根據最大跨度長度l生成的跨度數量;
19、在原始跨度表征序列的前后分別添加含有局部結構信息的隱式方面詞標簽與隱式觀點詞標簽,生成表征:
20、
21、其中,表示隱式方面詞標簽,表示隱式觀點詞標簽,隱式方面詞標簽與隱式觀點詞標簽分別含有預訓練語言模型編碼器輸出的自然語言文本評論序列中隱式方面詞的局部結構表征與隱式觀點詞的局部結構表征。
22、根據上述技術手段,在構建不同長度跨度的跨度表征后,隱式方面詞標簽與隱式觀點詞標簽分別作用于判斷自然語言文本評論序列中是否存在隱式的方面詞或者是觀點詞。
<本文檔來自技高網...【技術保護點】
1.一種細粒度情感元素抽取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的細粒度情感元素抽取方法,其特征在于,所述方面情感四元組抽取模型包括:
3.根據權利要求2所述的細粒度情感元素抽取方法,其特征在于,利用梯度下降法訓練方面情感四元組抽取模型,得到已訓練好的方面情感四元組抽取模型。
4.根據權利要求2所述的細粒度情感元素抽取方法,其特征在于,獲取的自然語言文本評論序列表示為,其中,N表示自然語言文本評論序列的長度,表示自然語言文本評論序列中第i個單詞,經預訓練語言模型編碼器進行編碼后,得到自然語言文本評論序列基于上下文的表征,表征表示為:};設定最大跨度長度為L,采用滑動窗口的方式,從1到L,依次構建不同長度的自然語言文本評論序列的跨度:
5.根據權利要求4所述的細粒度情感元素抽取方法,其特征在于,所述面向局部結構模塊包括多頭注意力機制層、第一多層感知機及第一softmax層;以隱式方面詞標簽作為多頭注意力機制層的查詢、以原始跨度表征序列作為鍵、以原始跨度表征序列作為值,輸入至多頭注意力機制層,進行多頭注意力機制計算,經
6.根據權利要求4所述的細粒度情感元素抽取方法,其特征在于,所述方面詞與觀點詞解碼模塊包括降維層、還原層、修正線性單元激活層、第一拼接層、第二多層感知機及第二softmax層,在方面詞與觀點詞解碼模塊中,對原始跨度表征序列進行分類,得到變化的跨度表征序列的過程包括:
7.根據權利要求6所述的細粒度情感元素抽取方法,其特征在于,方面類別預測模塊包括:表征相加層及第二拼接層,在所述表征相加層中,將方面詞最終表征和觀點詞最終表征相加,得到+的表征,然后與方面詞左側跨度的表征、方面詞右側跨度的表征進行拼接,獲得方面詞的類別,滿足表達式:
8.根據權利要求6所述的細粒度情感元素抽取方法,其特征在于,所述方面詞與觀點詞交互模塊包括:方面詞解碼器、觀點詞解碼器、雙向長短時記憶層LSTM、交叉注意力機制層、方面詞多層感知機、觀點詞多層感知機及第三softmax層;
9.根據權利要求8所述的細粒度情感元素抽取方法,其特征在于,所述推理篩選合并模塊將方面詞的類別、方面詞最終表征、觀點詞最終表征和情感極性進行合并操作,并進行方面情感四元組置信度篩選,抽取出最終的方面情感四元組的過程為:
10.一種細粒度情感元素抽取系統,其特征在于,所述系統包括:預訓練語言模型編碼器、跨度表征生成器及已訓練好的方面情感四元組抽取模型;
...【技術特征摘要】
1.一種細粒度情感元素抽取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的細粒度情感元素抽取方法,其特征在于,所述方面情感四元組抽取模型包括:
3.根據權利要求2所述的細粒度情感元素抽取方法,其特征在于,利用梯度下降法訓練方面情感四元組抽取模型,得到已訓練好的方面情感四元組抽取模型。
4.根據權利要求2所述的細粒度情感元素抽取方法,其特征在于,獲取的自然語言文本評論序列表示為,其中,n表示自然語言文本評論序列的長度,表示自然語言文本評論序列中第i個單詞,經預訓練語言模型編碼器進行編碼后,得到自然語言文本評論序列基于上下文的表征,表征表示為:};設定最大跨度長度為l,采用滑動窗口的方式,從1到l,依次構建不同長度的自然語言文本評論序列的跨度:
5.根據權利要求4所述的細粒度情感元素抽取方法,其特征在于,所述面向局部結構模塊包括多頭注意力機制層、第一多層感知機及第一softmax層;以隱式方面詞標簽作為多頭注意力機制層的查詢、以原始跨度表征序列作為鍵、以原始跨度表征序列作為值,輸入至多頭注意力機制層,進行多頭注意力機制計算,經多頭注意力機制層輸出后,輸入至第一多層感知機進行隱式方面詞預測,最后經過第一softmax層得到預測概率,過程滿足以下表達式:
6.根據權利要...
【專利技術屬性】
技術研發人員:陳炳豐,許浩然,許柏炎,郝志峰,蔡瑞初,邱辰杰,
申請(專利權)人:廣東工業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。