本發明專利技術提出一種產品特征評論挖掘方法及系統。其中,方法包括以下步驟:通過網絡爬蟲從網站獲取評論,其中,評論為顯式評論或隱式評論中的一種;從顯式評論提取顯式特征;通過顯式特征或顯式評論在隱式評論中提取隱式特征;將描述相同特征的評論進行情感化分類;以及從情感分類后的評論中提取多個評論生成評論摘要。根據本發明專利技術實施例的方法,通過在網站上獲得的海量評論作為數據源,因此提高了數據的準確性,同時對評論進行情感分類為用戶提供了直觀的數據,方便了用戶查詢。
【技術實現步驟摘要】
本專利技術涉及計算機
,特別涉及一種產品特征評論挖掘方法及系統。
技術介紹
隨著互聯網的不斷普及和web2. O的飛速發展,互聯網所傳達的關于社會事件、熱點人物以及各類產品的評論信息受到了各方的關注,已成為人們獲取信息的一個重要渠道,也往往在人們的決策中占據了很大的分·量。從信息傳播的特點上,互聯網具有交互性,能夠快速有效地傳播網民觀點,從而形成一定的社會輿情導向,因而它在信息的傳播速度、信息的實時有效性、社會影響力以及輿論導向等方面與傳統媒體相比有很大的優越性。用戶現在已不僅僅是充當一個簡單的信息瀏覽者的角色,更多的時候,用戶也是一個信息的發布者。論壇、博客、評論網站、郵件、微博等都給Web 2. O的用戶提供了一個發布信息,表達自己觀點場所。于是,互聯網上開始產生了大量的含有主觀色彩的評論信息,這些信息可以是用戶針對某一種產品,某一些服務的看法或者使用心得,也可以是用戶針對某個社會事件所持有的觀點等。目前普遍采用的方法是直接從評論網站等渠道獲取評論,直接提取出包含產品特征短語的評論進行分析,并羅列具有代表性的評論供用戶查詢。傳統方法存在的缺點包括(I)對對象特征的抽取方式單一,降低了特征抽取的準確性。(2)指示羅列評論,因此獲得信息有限。
技術實現思路
本專利技術的目的旨在至少解決上述的技術缺陷之一。為達到上述目的,本專利技術一方面的實施例提出一種產品特征評論挖掘方法,包括以下步驟S1 :通過網絡爬蟲從網站獲取評論,其中,所述評論為顯式評論或隱式評論中的一種;S2 :從所述顯式評論提取顯式特征;S3 :通過所述顯式特征或所述顯式評論在所述隱式評論中提取隱式特征;S4 :將描述相同特征的評論進行情感化分類;以及S5 :從所述情感分類后的評論中提取多個評論生成評論摘要。根據本專利技術實施例的方法,通過在網站上獲得的海量評論作為數據源,因此提高了數據的準確性,同時對評論進行情感分類為用戶提供了直觀的數據,方便了用戶查詢。在本專利技術的一個實施例中,所述方法還包括S6 :通過產品特征查看所述評論摘要。在本專利技術的一個實施例中,所述步驟S2具體包括S21 :從所述顯式評論中提取頻繁出現的名詞或者名詞短語;S22 :對所述名詞或者名詞短語進行處理得到概念集合;以及S23:將所述概念集合進行聚類得到概念聚類集合,即所述顯式特征。在本專利技術的一個實施例中,所述步驟S3具體包括S31 :根據顯式評論并通過搭配提取方法生成關聯規則,其中,所述關聯規則由詞語和所述顯式特征或頻繁項和所述顯式特征組成;以及S32 :根據所述關聯規則在所述隱式評論提取所述隱式特征。在本專利技術的一個實施例中,所述步驟S3具體包括S310 :根據所述顯式評論和顯式特征選擇屬性生成訓練模型;S320 :根據所述訓練模型的訓練生成分類器;S330 :獲取所述隱式評論;以及S340 :通過所述分類器對所述隱式評論進行分析確定所述隱式特征。在本專利技術的一個實施例中,所述步驟S4具體包括S41 :從所述評論中提取描述相同特征的評論;以及S42 :通過詞典對描述相同特征的所述評論進行情感化分類。為達到上述目的,本專利技術的實施例另一方面提出一種產品特征評論挖掘系統,包括獲取模塊,用于通過網絡爬蟲從網站獲取評論,其中,所述評論為顯式評論或隱式評論中的一種;第一提取模塊,用于從所述顯式評論提取顯式特征;第二提取模塊,用于通過所述顯式特征或所述顯式評論在所述隱式評論中提取隱式特征;情感分類模塊,用于將描述相同特征的評論進行情感化分類;以及摘要生成模塊,用于從所述情感分類后的評論中提取多個評論生成評論摘要。·根據本專利技術實施例的系統,通過在網站上獲得的海量評論作為數據源,因此提高了數據的準確性,同時對評論進行情感分類為用戶提供了直觀的數據,方便了用戶查詢。本專利技術的一個實施例中,所述系統還包括查看模塊,用于通過產品特征查看所述評論摘要。本專利技術的一個實施例中,所述第一提取模塊具體包括第一提取單元,用于從所述顯式評論中提取頻繁出現的名詞或者名詞短語;處理單元,用于對所述名詞或者名詞短語進行處理得到概念集合;以及聚類單元,用于將所述概念集合進行聚類得到概念聚類集合,即所述顯式特征。本專利技術的一個實施例中,所述第二提取模塊具體包括第一生成單元,用于根據顯式評論并通過搭配提取方法生成關聯規則,其中,所述關聯規則由詞語和所述顯式特征或頻繁項和所述顯式特征組成;以及第二提取單元,用于根據所述關聯規則在所述隱式評論提取所述隱式特征。本專利技術的一個實施例中,所述第二提取模塊具體包括第二生成單元,用于根據所述顯式評論和顯式特征選擇屬性生成訓練模型;第三生成單元,用于根據所述訓練模型的訓練生成分類器;獲取單元,用于獲取所述隱式評論;以及確定單元,用于通過所述分類器對所述隱式評論進行分析確定所述隱式特征。本專利技術的一個實施例中,所述情感分類模塊具體包括第三提取單元,用于從所述評論中提取描述相同特征的評論;以及情感分類單元,用于通過詞典對描述相同特征的所述評論進行情感化分類。本專利技術附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中圖I為根據本專利技術一個實施例的產品特征評論挖掘方法的流程圖;圖2為根據本專利技術一個實施例的通過訓練分類模型得到隱式特征的流程圖3為根據本專利技術另一個實施例的產品特征評論挖掘方法的流程圖;圖4為根據本專利技術一個實施例的產品特征評論挖掘系統的框架圖;圖5為根據本專利技術一個實施例的第一提取模塊的框架圖;圖6為根據本專利技術一個實施例的第二提取模塊中通過關聯規則挖掘提取隱式特征的框架圖;圖7為根據本專利技術一個實施例的第二提取模塊中通過訓練分類模型提取隱式特 征的框架圖;以及圖8為根據本專利技術另一個實施例的產品特征評論挖掘系統的框架圖。具體實施例方式下面詳細描述本專利技術的實施例,實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本專利技術,而不能解釋為對本專利技術的限制。在本專利技術的描述中,需要理解的是,術語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隱含地包括一個或者更多個該特征。在本專利技術的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。圖I為本專利技術實施例的產品特征評論挖掘方法的流程圖。如圖I所示,根據本專利技術實施例的產品特征評論挖掘方法,包括以下步驟步驟S101,通過網絡爬蟲從網站獲取評論,其中,評論為顯式評論或隱式評論中的一種。具體地,從互聯網上獲取大量的針對某些特定產品的用戶評論,以便進行觀點挖掘與分析。通過網絡爬蟲從論壇、博客、京東、郵件、微博等網站或者在專門的評論網站上爬取評論,并保存到相應數據庫。抓取的數據包括產品信息、評論具體信息、某一些服務的看法或者使用心得,也可以是用戶針對某個社會事件所持有的觀點等。在本專利技術的一個實施例中,網絡爬蟲會定期根據所的時間抓取每個產品新增的評論以保證數據的完整性與實時性。步驟S102,從顯式評論提取本文檔來自技高網...
【技術保護點】
一種產品特征評論挖掘方法,其特征在于,包括以下步驟:S1:通過網絡爬蟲從網站獲取評論,其中,所述評論為顯式評論或隱式評論中的一種;S2:從所述顯式評論提取顯式特征;S3:通過所述顯式特征或所述顯式評論在所述隱式評論中提取隱式特征;S4:將描述相同特征的評論進行情感化分類;以及S5:從所述情感分類后的評論中提取多個評論生成評論摘要。
【技術特征摘要】
【專利技術屬性】
技術研發人員:楊睿塵,
申請(專利權)人:北京騰逸科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。