• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法技術

    技術編號:36690723 閱讀:35 留言:0更新日期:2023-02-27 19:57
    本發明專利技術公開了一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,首先使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;然后對初始用戶評論數據集做預處理,得到產品用戶評論數據集;接下來基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;再對主題用戶評論數據集進行二次處理;最后基于ISIFRank(Improved SIFRank)模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。本發明專利技術的最終結果以關鍵用戶需求集的方式呈現,產品設計與決策的相關人員均可從中獲取支持自身工作的參考信息。均可從中獲取支持自身工作的參考信息。均可從中獲取支持自身工作的參考信息。

    【技術實現步驟摘要】
    一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法


    [0001]本專利技術屬于數據挖掘
    ,具體涉及一種產品關鍵用戶需求挖掘方法。

    技術介紹

    [0002]在現代市場激烈的競爭條件下,隨著消費者的需求不斷變化,新型產品也隨之層出不窮。為了提高新型產品的競爭力,企業需要根據用戶需求開展產品的迭代升級。隨著互聯網的發展,越來越多的用戶在購物網站上發表評論意見,反饋關于產品的使用感受,這些評論最終產生了大量的文本,包含豐富的潛在可用信息,可以為產品迭代升級提供可靠信息來源。
    [0003]用戶評論數據的介入超越了有限樣本統計預測和估計能達到的范圍,通過用戶評論的采集、管理和挖掘,能夠有效地將用戶的感性信息和需求量化,以此驅動產品的迭代創新,也為工業設計提供了新的模式和方法。從產品角度來看,“產品
    ?
    評論數據
    ?
    產品”的創新設計模式是將用戶評論數據作為產品持續開發的依據,適合新型產品的迭代升級。新型產品的用戶評論數據中隱藏的是用戶隱性需求,在數據的驅動下,實現對關鍵需求的挖掘,推動產品新一輪的迭代升級。新一代產品可以持續性獲得評論反饋數據,在動態的迭代循環中有效實現用戶評論數據的價值。
    [0004]現有的用戶需求挖掘方法關注的是市場常見的產品,產品已經迭代數代,網絡中存在大量用戶評論用于挖掘用戶需求。但是,由于新型產品投入市場時間不久、購買者基數不大等原因,不能提供龐大的數據來源,因此需要采取有效的方法分析小樣本評論數據,挖掘關鍵用戶需求,為新型產品的迭代升級提供參考。/>[0005]獲取用戶需求的關鍵技術已經從傳統方法逐漸轉移到應用自然語言處理技術對用戶評論文本進行分析。自然語言處理技術的發展,本質上是如何更準確地表征自然語言模型的不斷進化。相關技術從機器學習發展深度學習的過程中,有學者將不同的自然語言處理技術進行改進或者結合,對用戶評論語義進行更全面的學習和表達,進而引進到挖掘用戶需求領域進行應用研究。
    [0006]針對本專利技術所關注的新型產品迭代升級過程中的用戶需求挖掘問題,新產品的網絡用戶評論數量有限,其本身可提供給機器進行學習的信息也有限。近幾年新興的預訓練語言模型,在該方面表現出優勢。通過提前在海量數據的基礎上學習人類語言知識,然后遷移代入到具體任務,可實現從有限的用戶評論數據中挖掘有價值的信息。與此同時,預訓練語言模型在產品的用戶需求挖掘領域的應用仍處于探索階段,可做新的探索性嘗試,從而輔助設計師和研發人員實現人機協同下的新型產品迭代設計。

    技術實現思路

    [0007]為了克服現有技術的不足,本專利技術提供了一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,首先使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;然后對初始用戶評論數據集做預處理,得到產品用戶評論數據集;接下來基于
    ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;再對主題用戶評論數據集進行二次處理;最后基于ISIFRank(Improved SIFRank)模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。本專利技術的最終結果以關鍵用戶需求集的方式呈現,產品設計與決策的相關人員均可從中獲取支持自身工作的參考信息。
    [0008]本專利技術解決其技術問題所采用的技術方案包括如下步驟:
    [0009]步驟1:使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;
    [0010]步驟2:對初始用戶評論數據集做預處理,得到用于用戶評論主題聚類的產品用戶評論數據集;
    [0011]步驟2
    ?
    1:剔除默認評價和重復評價;
    [0012]步驟2
    ?
    2:去除用戶評論中無效的字符、空白和亂碼,完成用戶文本數據的清洗;
    [0013]步驟2
    ?
    3:識別評論中的拼寫錯誤、詞法錯誤、句法錯誤和語義錯誤,完成糾錯;
    [0014]步驟2
    ?
    4:將同一實體的不同描述方式進行合并,統一使用相同實體名稱;
    [0015]步驟3:基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;
    [0016]步驟4:對主題用戶評論數據集進行二次處理;
    [0017]步驟4
    ?
    1:使用THULAC工具將主題用戶評論數據集的用戶評論文本進行分詞處理;
    [0018]步驟4
    ?
    2:使用NLTK工具對分詞進行詞性標注;
    [0019]步驟4
    ?
    3:根據中文用詞習慣和詞性匹配原則,設定8種反映用戶需求的詞法規則,采用正則表達式聚合得到產品信息短語,構成產品信息短語集合PIP={PIP1,PIP2,...,PIP
    m
    };PIP1~PIP
    m
    分別表示第1至第m個產品信息短語;
    [0020]其中,所述設定8種反映用戶需求的詞法規則,包括:圍繞形容詞和動詞設計詞法規則各4種:
    [0021][0022]其中,JJ為形容詞,NN為名詞,RB為副詞,VB為動詞,DT為限定詞,符號表示以NLTK工具詞性標注符號為基準;
    [0023]步驟5:基于ISIFRank模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。
    [0024]進一步地,所述基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集,包括:
    [0025]步驟3
    ?
    1:構造用戶評論文本的輸入向量,將用戶評論文本轉換為向量,送入到ERNIE模型中進行訓練和學習;
    [0026]用戶評論文本的輸入向量,包括:詞嵌入、段嵌入和位置嵌入三部分融合生成用戶評論文本的輸入向量;
    [0027]步驟3
    ?
    2:基于戶在線評論編碼和用戶評論知識整合訓練用戶評論文本的輸入向量,獲取用戶評論的詞向量表征;
    [0028]步驟3
    ?
    3:連接Softmax層,用于支持用戶評論的主題聚類任務。
    [0029]進一步地,所述基于用戶在線評論編碼和用戶評論知識整合來訓練用戶評論文本
    的輸入向量,獲取用戶評論的詞向量表征,包括:
    [0030]步驟3
    ?2?
    1:以雙向Transformer編碼器為基礎單元構建預訓練語言模型,Transformer編碼器依靠自注意力機制為用戶評論中每一個字編碼上下文的信息;
    [0031]步驟3
    ?2?1?
    1:通過映射矩陣W
    Q
    、W
    K
    、W
    V
    ,該層將embedding層給出的輸入向量X分別轉換成輸入矩陣,包括查詢Q、鍵K和值V,具體公式為:
    [0032]Q=XWQ(1)
    [0033]K=XW
    K
    (2)
    [0034]V=XW
    V
    (3)
    [0035]步驟3
    ?2?1?
    2:通過點積對Q和K進行相似度計算得到權重;
    本文檔來自技高網...

    【技術保護點】

    【技術特征摘要】
    1.一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,其特征在于,包括如下步驟:步驟1:使用爬蟲工具從電商網站中獲取產品的用戶評論,建立初始用戶評論數據集;步驟2:對初始用戶評論數據集做預處理,得到用于用戶評論主題聚類的產品用戶評論數據集;步驟2
    ?
    1:剔除默認評價和重復評價;步驟2
    ?
    2:去除用戶評論中無效的字符、空白和亂碼,完成用戶文本數據的清洗;步驟2
    ?
    3:識別評論中的拼寫錯誤、詞法錯誤、句法錯誤和語義錯誤,完成糾錯;步驟2
    ?
    4:將同一實體的不同描述方式進行合并,統一使用相同實體名稱;步驟3:基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集;步驟4:對主題用戶評論數據集進行二次處理;步驟4
    ?
    1:使用THULAC工具將主題用戶評論數據集的用戶評論文本進行分詞處理;步驟4
    ?
    2:使用NLTK工具對分詞進行詞性標注;步驟4
    ?
    3:根據中文用詞習慣和詞性匹配原則,設定8種反映用戶需求的詞法規則,采用正則表達式聚合得到產品信息短語,構成產品信息短語集合PIP={PIP1,PIP2,...,PIP
    m
    };PIP1~PIP
    m
    分別表示第1至第m個產品信息短語;其中,所述設定8種反映用戶需求的詞法規則,包括:圍繞形容詞和動詞設計詞法規則各4種:其中,JJ為形容詞,NN為名詞,RB為副詞,VB為動詞,DT為限定詞,符號表示以NLTK工具詞性標注符號為基準;步驟5:基于ISIFRank模型進行關鍵產品信息短語提取,建立關鍵用戶需求集。2.根據權利要求1所述一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,其特征在于,所述基于ERNIE模型進行用戶評論主題聚類,得到若干主題用戶評論數據集,包括:步驟3
    ?
    1:構造用戶評論文本的輸入向量,將用戶評論文本轉換為向量,送入到ERNIE模型中進行訓練和學習;用戶評論文本的輸入向量,包括:詞嵌入、段嵌入和位置嵌入三部分融合生成用戶評論文本的輸入向量;步驟3
    ?
    2:基于戶在線評論編碼和用戶評論知識整合訓練用戶評論文本的輸入向量,獲取用戶評論的詞向量表征;步驟3
    ?
    3:連接Softmax層,用于支持用戶評論的主題聚類任務。3.根據權利要求2所述一種小樣本評論數據驅動的產品關鍵用戶需求挖掘方法,其特征在于,所述基于用戶在線評論編碼和用戶評論知識整合來訓練用戶評論文本的輸入向量,獲取用戶評論的詞向量表征,包括:步驟3
    ?2?
    1:以雙向Transformer編碼器為基礎單元構建預訓練語言模型,Transformer
    編碼器依靠自注意力機制為用戶評論中每一個字編碼上下文的信息;步驟3
    ?2?1?
    1:通過映射矩陣W
    Q
    、W
    K
    、W
    V
    ,該層將embedding層給出的輸入向量X分別轉換成輸入矩陣,包括查詢Q、鍵K和值V,具體公式為:Q=XW
    Q
    (1)K=XW
    K
    (2)V=XW

    【專利技術屬性】
    技術研發人員:叢揚帆初建杰余隋懷蘇兆婧
    申請(專利權)人:西北工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码乱码国产精品| 国产精品白浆无码流出| 国产精品国产免费无码专区不卡 | 国产在线精品无码二区二区| 亚洲Av无码乱码在线播放| 无码午夜成人1000部免费视频| 无码射肉在线播放视频| 亚洲av永久无码精品秋霞电影秋| 成人免费无码大片A毛片抽搐 | 无码囯产精品一区二区免费| 亚洲国产精品无码久久| 国产成人精品无码片区在线观看| 无码乱肉视频免费大全合集| 中文精品无码中文字幕无码专区| 白嫩少妇激情无码| 无码精品视频一区二区三区| 无码专区6080yy国产电影| 亚洲AV永久无码精品一福利| 亚洲AV中文无码字幕色三| 国产成人无码午夜视频在线观看| 亚洲av永久无码精品秋霞电影影院| 色欲aⅴ亚洲情无码AV| 亚洲精品GV天堂无码男同 | 亚洲Av综合色区无码专区桃色| 丰满少妇被猛烈进入无码| 久久无码国产专区精品| 无码人妻少妇久久中文字幕蜜桃 | 久久亚洲AV无码精品色午夜麻豆| 亚洲精品无码久久毛片| 免费无码成人AV片在线在线播放| 无码av高潮喷水无码专区线| 久久久久亚洲精品无码系列| 亚洲av永久无码精品国产精品| 久久久久久av无码免费看大片| 人妻无码一区二区视频| 中文字幕无码久久久| 一本加勒比hezyo无码专区 | 一本色道久久HEZYO无码| 国产在线观看无码免费视频| 日韩综合无码一区二区| 国产成年无码久久久免费|