一種文本立場檢測方法技術

技術編號：28478404 閱讀：54 留言：0更新日期：2021-05-15 21:47

本發明專利技術涉及一種文本立場檢測方法，包括以下步驟：使用BERT預訓練模型在訓練集a上進行finetune訓練，形成訓練后的BERT預訓練模型；在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語，從而構成訓練集b；對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼，得到訓練集b中每條評論數據所對應的向量；使用kmeans算法對訓練集b所對應的向量進行聚類，將聚類簇的個數設置為2，從而判斷訓練集a中評論數據的立場。本發明專利技術使用無需人工標注的訓練集對模型進行訓練后，再結合kmeans算法即可檢測出評論數據立場的方法。場的方法。場的方法。

全部詳細技術資料下載

【技術實現步驟摘要】
一種文本立場檢測方法

[0001]本專利技術涉及自然語言
，特別涉及一種文本立場檢測方法。

技術介紹

[0002]互聯網上有大量的言論，往往需要對這些言論中的立場進行檢測。比如電商的評論區中用戶對產品的評價立場，豆瓣電影中觀眾對電影的評價立場，以及微博言論中評論人對某個事件的態度立場等等。因此本申請中所述文本的應用領域為以人類語言表示的各種言論、評論。
[0003]傳統的立場檢測方法需要對每一個特定場景的數據進行大量的人工標注，然后將人工標注的數據用來訓練監督學習模型，以使用訓練好的模型判斷文本的立場。這種方法雖然準確率較高，但是需要標注的成本也太高，且不通用。
[0004]還有傳統的基于非監督學習的立場檢測，直接對言論的詞向量聚類來進行立場判斷，由于這種方法沒有針對性，往往聚類出來的結果并不是想要的，或者使不準確的。

技術實現思路

[0005]本專利技術的目的在于無需人工標注訓練集，也能對評論數據進行立場檢測，提供一種文本立場檢測方法。
[0006]為了實現上述專利技術目的，本專利技術實施例提供了以下技術方案：一種文本立場檢測方法，包括以下步驟：使用BERT預訓練模型在訓練集a上進行finetune訓練，形成訓練后的BERT預訓練模型；所述訓練集a中為若干無標注的評論數據；所述評論數據為以人類語言表示的言論、評論；在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語，從而構成訓練集b；對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼，得到...

【技術保護點】

【技術特征摘要】
1.一種文本立場檢測方法，其特征在于：包括以下步驟：使用BERT預訓練模型在訓練集a上進行finetune訓練，形成訓練后的BERT預訓練模型；所述訓練集a中為若干無標注的評論數據；所述評論數據為以人類語言表示的言論、評論；在訓練集a中的每條評論數據的結尾處分別添加正向立場的話語和反向立場的話語，從而構成訓練集b；對訓練集b中的評論數據輸入訓練好的BERT預訓練模型進行編碼，得到訓練集b中每條評論數據所對應的向量；使用kmeans算法對訓練集b所對應的向量進行聚類，將聚類簇的個數設置為2，聚類后得到一個簇為語義一致，另一個簇為語義不一致，從而判斷訓練集a中評論數據的立場。2.根據權利要求1所述的一種文本立場檢測方法，其特征在于：所述聚類后得到一個簇為語義一致，另一個簇為語義不一致，從而判斷訓練集a中評論數據的立場的步驟，具體包括：在語義一致的簇中，若評論數據結尾處添加的是正向立場，則該條評論數據為正向立場；若評論數據結尾處添加的是反向立場，則該條評論數據為反向立場；在語義不一致的簇中，若評論數據結尾處添加的是正向立場，則該條評論數據為反向立場；若評論數據結尾處添加的是反向立場，則該條評論數據為正向立場。3.根據權...

【專利技術屬性】
技術研發人員：劉世林，康青楊，黃艷，曾途，
申請(專利權)人：成都數聯銘品科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術