本發明專利技術涉及一種文本立場檢測方法,包括以下步驟:使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型;在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語,從而構成訓練集b;對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼,得到訓練集b中每條評論數據所對應的向量;使用kmeans算法對訓練集b所對應的向量進行聚類,將聚類簇的個數設置為2,從而判斷訓練集a中評論數據的立場。本發明專利技術使用無需人工標注的訓練集對模型進行訓練后,再結合kmeans算法即可檢測出評論數據立場的方法。場的方法。場的方法。
【技術實現步驟摘要】
一種文本立場檢測方法
[0001]本專利技術涉及自然語言
,特別涉及一種文本立場檢測方法。
技術介紹
[0002]互聯網上有大量的言論,往往需要對這些言論中的立場進行檢測。比如電商的評論區中用戶對產品的評價立場,豆瓣電影中觀眾對電影的評價立場,以及微博言論中評論人對某個事件的態度立場等等。因此本申請中所述文本的應用領域為以人類語言表示的各種言論、評論。
[0003]傳統的立場檢測方法需要對每一個特定場景的數據進行大量的人工標注,然后將人工標注的數據用來訓練監督學習模型,以使用訓練好的模型判斷文本的立場。這種方法雖然準確率較高,但是需要標注的成本也太高,且不通用。
[0004]還有傳統的基于非監督學習的立場檢測,直接對言論的詞向量聚類來進行立場判斷,由于這種方法沒有針對性,往往聚類出來的結果并不是想要的,或者使不準確的。
技術實現思路
[0005]本專利技術的目的在于無需人工標注訓練集,也能對評論數據進行立場檢測,提供一種文本立場檢測方法。
[0006]為了實現上述專利技術目的,本專利技術實施例提供了以下技術方案:一種文本立場檢測方法,包括以下步驟:使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型;所述訓練集a中為若干無標注的評論數據;所述評論數據為以人類語言表示的言論、評論;在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語,從而構成訓練集b;對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼,得到訓練集b中每條評論數據所對應的向量;使用kmeans算法對訓練集b所對應的向量進行聚類,將聚類簇的個數設置為2,聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場。
[0007]所述聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場的步驟,具體包括:在語義一致的簇中,若評論數據結尾處添加的是正向立場,則該條評論數據為正向立場;若評論數據結尾處添加的是反向立場,則該條評論數據為反向立場;在語義不一致的簇中,若評論數據結尾處添加的是正向立場,則該條評論數據為反向立場;若評論數據結尾處添加的是反向立場,則該條評論數據為正向立場。
[0008]所述聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中
評論數據的立場的步驟,還包括:若對訓練集b所對應的向量進行聚類后,其對應的評論數據未被劃分到任何簇中,則該條評論數據為中立立場。
[0009]所述使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型的步驟之前,還包括:將數據集a中的每條評論數據以標點符號為基準分為一條或多條語句,將所有評論數據中的一條或多條語句隨機交錯,構成不同的評論數據后輸入BERT預訓練模型,以使BERT預訓練模型具有判斷語義是否一致的功能。
[0010]所述將所有評論數據中的一條或多條語句隨機交錯,構成不同的評論數據后輸入BERT預訓練模型,以使BERT預訓練模型具有判斷語義是否一致的功能的步驟,具體包括:若隨機交錯后的評論數據出自于數據集a中同一條評論數據,則BERT預訓練模型判斷為語義一致;若隨機交錯后的評論數據出自于數據集a中不同的評論數據,則BERT預訓練模型判斷為語義不一致。
[0011]與現有技術相比,本專利技術的有益效果:本專利技術使用無需人工標注的訓練集對模型進行訓練后,再結合kmeans算法即可檢測出評論數據立場的方法。
附圖說明
[0012]為了更清楚地說明本專利技術實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹, 應當理解,以下附圖僅示出了本專利技術的某些實施例,因此不應被看作是對范圍的限定,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他相關的附圖。
[0013]圖1為本專利技術實施例1立場檢測方法流程圖。
具體實施方式
[0014]下面將結合本專利技術實施例中附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本專利技術實施例的組件可以以各種不同的配置來布置和設計。因此,以下對在附圖中提供的本專利技術的實施例的詳細描述并非旨在限制要求保護的本專利技術的范圍,而是僅僅表示本專利技術的選定實施例。基于本專利技術的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。
[0015]應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。同時,在本專利技術的描述中,術語“第一”、“第二”等僅用于區分描述,而不能理解為指示或暗示相對重要性,或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。
[0016]實施例1:本專利技術通過下述技術方案實現,如圖1所示,一種文本立場檢測方法,包括以下步驟:
步驟S1:使用BERT預訓練模型對訓練集a進行finetune訓練,形成訓練后的BERT預訓練模型。
[0017]所述訓練集a中為若干無標注的評論數據,作為舉例,比如現在數據集a中有三條評論數據,分別為:第一條:“這個蘋果真好吃,太甜了!”第二條:“這部電影真好看,劇情很有意思,我推薦你去看?!钡谌龡l:“我買了一件衣服,拉鏈式壞的,我再也不在這家買了?!睂⑦@三條評論數據輸入BERT預訓練模型進行finetune訓練,此種訓練屬于現有技術,故不贅述,從而形成訓練后的BERT預訓練模型,完成對BERT預訓練模型的訓練。
[0018]步驟S2:在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語,從而構成訓練集b。
[0019]本方案所述正向立場即為支持態度,反向立場即為反對態度。比如本實施例所添加的正向立場為“我喜歡它。”,添加的反向立場為“我不喜歡它。”,那么在步驟S1中舉例的三條評論數據結尾處分別加上這兩種立場,即為:“這個蘋果真好吃,太甜了!我喜歡它?!薄斑@個蘋果真好吃,太甜了!我不喜歡它?!薄斑@部電影真好看,劇情很有意思,我推薦你去看。我喜歡它。”“這部電影真好看,劇情很有意思,我推薦你去看。我不喜歡它?!薄拔屹I了一件衣服,拉鏈式壞的,我再也不在這家買了。我喜歡它。”“我買了一件衣服,拉鏈式壞的,我再也不在這家買了。我不喜歡它?!眲t從原始的訓練集a中三條評論數據變成了六條評論數據,這六條評論數據即構成所述訓練集b。
[0020]步驟S3:對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼,得到訓練集b中每條評論數據所對應的向量。
[0021]所述BERT預訓練模型是基于雙向Transformer的大規模預訓練語言模型,該預訓練模型能分別捕捉詞語和句子級別的表示,高效抽取文本信息,并應用于各種NLP任務。
[0022]比如將步驟S2中訓練集b內的六條評論數據輸入本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種文本立場檢測方法,其特征在于:包括以下步驟:使用BERT預訓練模型在訓練集a上進行finetune訓練,形成訓練后的BERT預訓練模型;所述訓練集a中為若干無標注的評論數據;所述評論數據為以人類語言表示的言論、評論;在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語,從而構成訓練集b;對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼,得到訓練集b中每條評論數據所對應的向量;使用kmeans算法對訓練集b所對應的向量進行聚類,將聚類簇的個數設置為2,聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場。2.根據權利要求1所述的一種文本立場檢測方法,其特征在于:所述聚類后得到一個簇為語義一致,另一個簇為語義不一致,從而判斷訓練集a中評論數據的立場的步驟,具體包括:在語義一致的簇中,若評論數據結尾處添加的是正向立場,則該條評論數據為正向立場;若評論數據結尾處添加的是反向立場,則該條評論數據為反向立場;在語義不一致的簇中,若評論數據結尾處添加的是正向立場,則該條評論數據為反向立場;若評論數據結尾處添加的是反向立場,則該條評論數據為正向立場。3.根據權...
【專利技術屬性】
技術研發人員:劉世林,康青楊,黃艷,曾途,
申請(專利權)人:成都數聯銘品科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。