【技術實現步驟摘要】
一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法
[0001]本專利技術屬于數據挖掘
,具體涉及一種產品關鍵用戶需求挖掘方法。
技術介紹
[0002]在現代市場激烈的競爭條件下,隨著消費者的需求不斷變化,新型產品也隨之層出不窮。為了提高新型產品的競爭力,企業需要根據用戶需求開展產品的迭代升級。隨著互聯網的發展,越來越多的用戶在購物網站上發表評論意見,反饋關于產品的使用感受,這些評論最終產生了大量的文本,包含豐富的潛在可用信息,可以為產品迭代升級提供可靠信息來源。
[0003]用戶評論數據的介入超越了有限樣本統計預測和估計能達到的范圍,通過用戶評論的采集、管理和挖掘,能夠有效地將用戶的感性信息和需求量化,以此驅動產品的迭代創新,也為工業設計提供了新的模式和方法。從產品角度來看,“產品
?
評論數據
?
產品”的創新設計模式是將用戶評論數據作為產品持續開發的依據,適合新型產品的迭代升級。新型產品的用戶評論數據中隱藏的是用戶隱性需求,在數據的驅動下,實現對關鍵需求的挖掘,推動產品新一輪的迭代升級。新一代產品可以持續性獲得評論反饋數據,在動態的迭代循環中有效實現用戶評論數據的價值。
[0004]現有的用戶需求挖掘方法關注的是市場常見的產品,產品已經迭代數代,網絡中存在大量用戶評論用于挖掘用戶需求。但是,由于新型產品投入市場時間不久、購買者基數不大等原因,不能提供龐大的數據來源,因此需要采取有效的方法分析小樣本評論數據,挖掘關鍵用戶需求,為新型產品的迭代升級提供參考。 />[0005]獲取用戶需求的關鍵技術已經從傳統方法逐漸轉移到應用自然語言處理技術對用戶評論文本進行分析。自然語言處理技術的發展,本質上是如何更準確地表征自然語言模型的不斷進化。相關技術從機器學習發展深度學習的過程中,有學者將不同的自然語言處理技術進行改進或者結合,對用戶評論語義進行更全面的學習和表達,進而引進到挖掘用戶需求領域進行應用研究。
[0006]針對本專利技術所關注的新型產品迭代升級過程中的用戶需求挖掘問題,新產品的網絡用戶評論數量有限,其本身可提供給機器進行學習的信息也有限。近幾年新興的預訓練語言模型,在該方面表現出優勢。通過提前在海量數據的基礎上學習人類語言知識,然后遷移代入到具體任務,可實現從有限的用戶評論數據中挖掘有價值的信息。與此同時,預訓練語言模型在產品的用戶需求挖掘領域的應用仍處于探索階段,可做新的探索性嘗試,從而輔助設計師和研發人員實現人機協同下的新型產品迭代設計。
技術實現思路
[0007]為了克服現有技術的不足,本專利技術提供了一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,首先使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;然后對初始用戶評論數據集做預處理,得到產品用戶評論數據集;接下來基于
ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;再對主題用戶評論數據集進行二次處理;最后基于ISIFRank(Improved SIFRank)模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。本專利技術的最終結果以關鍵用戶需求集的方式呈現,產品設計與決策的相關人員均可從中獲取支持自身工作的參考信息。
[0008]本專利技術解決其技術問題所采用的技術方案包括如下步驟:
[0009]步驟1:使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;
[0010]步驟2:對初始用戶評論數據集做預處理,得到用于用戶評論主題聚類的產品用戶評論數據集;
[0011]步驟2
?
1:剔除默認評價和重復評價;
[0012]步驟2
?
2:去除用戶評論中無效的字符、空白和亂碼,完成用戶文本數據的清洗;
[0013]步驟2
?
3:識別評論中的拼寫錯誤、詞法錯誤、句法錯誤和語義錯誤,完成糾錯;
[0014]步驟2
?
4:將同一實體的不同描述方式進行合并,統一使用相同實體名稱;
[0015]步驟3:基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;
[0016]步驟4:對主題用戶評論數據集進行二次處理;
[0017]步驟4
?
1:使用THULAC工具將主題用戶評論數據集的用戶評論文本進行分詞處理;
[0018]步驟4
?
2:使用NLTK工具對分詞進行詞性標注;
[0019]步驟4
?
3:根據中文用詞習慣和詞性匹配原則,設定8種反映用戶需求的詞法規則,采用正則表達式聚合得到產品信息短語,構成產品信息短語集合PIP={PIP1,PIP2,...,PIP
m
};PIP1~PIP
m
分別表示第1至第m個產品信息短語;
[0020]其中,所述設定8種反映用戶需求的詞法規則,包括:圍繞形容詞和動詞設計詞法規則各4種:
[0021][0022]其中,JJ為形容詞,NN為名詞,RB為副詞,VB為動詞,DT為限定詞,符號表示以NLTK工具詞性標注符號為基準;
[0023]步驟5:基于ISIFRank模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。
[0024]進一步地,所述基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集,包括:
[0025]步驟3
?
1:構造用戶評論文本的輸入向量,將用戶評論文本轉換為向量,送入到ERNIE模型中進行訓練和學習;
[0026]用戶評論文本的輸入向量,包括:詞嵌入、段嵌入和位置嵌入三部分融合生成用戶評論文本的輸入向量;
[0027]步驟3
?
2:基于戶在線評論編碼和用戶評論知識整合訓練用戶評論文本的輸入向量,獲取用戶評論的詞向量表征;
[0028]步驟3
?
3:連接Softmax層,用于支持用戶評論的主題聚類任務。
[0029]進一步地,所述基于用戶在線評論編碼和用戶評論知識整合來訓練用戶評論文本
的輸入向量,獲取用戶評論的詞向量表征,包括:
[0030]步驟3
?2?
1:以雙向Transformer編碼器為基礎單元構建預訓練語言模型,Transformer編碼器依靠自注意力機制為用戶評論中每一個字編碼上下文的信息;
[0031]步驟3
?2?1?
1:通過映射矩陣W
Q
、W
K
、W
V
,該層將embedding層給出的輸入向量X分別轉換成輸入矩陣,包括查詢Q、鍵K和值V,具體公式為:
[0032]Q=XWQ(1)
[0033]K=XW
K
(2)
[0034]V=XW
V
(3)
[0035]步驟3
?2?1?
2:通過點積對Q和K進行相似度計算得到權重;
本文檔來自技高網...
【技術保護點】
【技術特征摘要】 【專利技術屬性】
1.一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,其特征在于,包括如下步驟:步驟1:使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;步驟2:對初始用戶評論數據集做預處理,得到用于用戶評論主題聚類的產品用戶評論數據集;步驟2
?
1:剔除默認評價和重復評價;步驟2
?
2:去除用戶評論中無效的字符、空白和亂碼,完成用戶文本數據的清洗;步驟2
?
3:識別評論中的拼寫錯誤、詞法錯誤、句法錯誤和語義錯誤,完成糾錯;步驟2
?
4:將同一實體的不同描述方式進行合并,統一使用相同實體名稱;步驟3:基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;步驟4:對主題用戶評論數據集進行二次處理;步驟4
?
1:使用THULAC工具將主題用戶評論數據集的用戶評論文本進行分詞處理;步驟4
?
2:使用NLTK工具對分詞進行詞性標注;步驟4
?
3:根據中文用詞習慣和詞性匹配原則,設定8種反映用戶需求的詞法規則,采用正則表達式聚合得到產品信息短語,構成產品信息短語集合PIP={PIP1,PIP2,...,PIP
m
};PIP1~PIP
m
分別表示第1至第m個產品信息短語;其中,所述設定8種反映用戶需求的詞法規則,包括:圍繞形容詞和動詞設計詞法規則各4種:其中,JJ為形容詞,NN為名詞,RB為副詞,VB為動詞,DT為限定詞,符號表示以NLTK工具詞性標注符號為基準;步驟5:基于ISIFRank模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。2.根據權利要求1所述一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,其特征在于,所述基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集,包括:步驟3
?
1:構造用戶評論文本的輸入向量,將用戶評論文本轉換為向量,送入到ERNIE模型中進行訓練和學習;用戶評論文本的輸入向量,包括:詞嵌入、段嵌入和位置嵌入三部分融合生成用戶評論文本的輸入向量;步驟3
?
2:基于戶在線評論編碼和用戶評論知識整合訓練用戶評論文本的輸入向量,獲取用戶評論的詞向量表征;步驟3
?
3:連接Softmax層,用于支持用戶評論的主題聚類任務。3.根據權利要求2所述一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,其特征在于,所述基于用戶在線評論編碼和用戶評論知識整合來訓練用戶評論文本的輸入向量,獲取用戶評論的詞向量表征,包括:步驟3
?2?
1:以雙向Transformer編碼器為基礎單元構建預訓練語言模型,Transformer
編碼器依靠自注意力機制為用戶評論中每一個字編碼上下文的信息;步驟3
?2?1?
1:通過映射矩陣W
Q
、W
K
、W
V
,該層將embedding層給出的輸入向量X分別轉換成輸入矩陣,包括查詢Q、鍵K和值V,具體公式為:Q=XW
Q
(1)K=XW
K
(2)V=XW
技術研發人員:叢揚帆,初建杰,余隋懷,蘇兆婧,
申請(專利權)人:西北工業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。