一種電子商務字典自動生成方法技術

技術編號：8271482 閱讀：226 留言：0更新日期：2013-01-31 03:43

本發明專利技術公開了一種電子商務字典自動生成方法，包括以下步驟：步驟1：數據爬取：從電子商務網站、搜索引擎爬取原始商品數據；步驟2：預處理；步驟3：遞進窮舉；步驟4：詞頻統計；步驟5：歸并處理；步驟6：冗余過濾；步驟7：正則式過濾；步驟8；步驟9：低頻詞剔除；步驟10：特征詞補償。主要優點包括：一是生成字典的速度快，采用機器學習、智能過濾、糾偏、補償等算法自動生成字典、可大大提高生成效率。二是生成字典收錄率高，由于采用了遞進窮舉方法對文本進行分詞，因此在分詞過程中很少會漏掉詞條。三是生成的字典更加精煉，結合糾偏、冗余過濾、正則過濾等處理算法，消除字典中的冗余和錯誤，最終生成的電子商務字典更加精煉。

全部詳細技術資料下載

【技術實現步驟摘要】
本專利技術涉及的是一種電子商務字典自動生成方法。主要面向電子商務領域，電子商務字典是電子商務網站應用的基礎，譬如在搜索、推薦、語義分詞、排序權重計算等多方面都需要用到。
技術介紹
目前面向電子商務的字典很少見，目前主流應用如淘寶大多采用手工生成或簡單統計生成，也有部分采用機器學習的方法去搜集詞條形成字典。但傳統方法的缺點主要包括一是手工處理工作量大二是由于電子商務領域應用新商品層出不窮變化非常快，傳統方式更新速度慢三是自動生成方法的精確度低，結果比較粗糙。·
技術實現思路
本專利技術針對電子商務領域特點，提出一套電子商務字典的自動生成方法，可從HTML網頁等商品描述數據源中提取商品相關原始信息，通過遞進窮舉方法對文本進行切分，然后結合相應的糾偏和補償算法對字典數據進行提純，最終得到高質量的電子商務領域字典。該字典可廣泛使用于搜索、語義分詞、推薦、權重計算等電子商務應用中。本專利技術的技術方案如下步驟I :數據爬取從電子商務網站、搜索引擎爬取原始商品數據；步驟2 :預處理對采集的原始商品數據進行預處理，過濾其中垃圾信息并做結構化處理；步驟3 :遞進窮舉采用遞進窮舉方法按合理長度窮舉各種分詞組合，同時累計各種組合出現的頻率，形成完整的包含所有可能組合的粗糙字典；步驟4 :詞頻統計對字典中各個詞條的出現次數進行統計，對每遇到一次把相應詞條的count加I ;步驟5 :歸并處理按規則五進行合并處理，一組潛在詞如果字數相同、出現次數相同，同時有公共子串，并且公共子串出現頻率與潛在詞次數相同，則合并兩個潛在詞為一個字符串；步驟6 :冗余過濾對粗糙字典計算出現頻率，按照規則一至規...

【技術保護點】
一種電子商務字典自動生成方法，其特征在于，包括以下步驟：步驟1：數據爬取：從電子商務網站、搜索引擎爬取原始商品數據；步驟2：預處理：對采集的原始商品數據進行預處理，過濾其中垃圾信息并做結構化處理；步驟3：遞進窮舉：采用遞進窮舉方法按合理長度窮舉各種分詞組合，同時累計各種組合出現的頻率，形成完整的包含所有可能組合的粗糙字典；步驟4：詞頻統計：對字典中各個詞條的出現次數進行統計，對每遇到一次把相應詞條的count加1；步驟5：歸并處理：按規則五進行合并處理，一組潛在詞如果字數相同、出現次數相同，同時有公共子串，并且公共子串出現頻率與潛在詞次數相同，則合并兩個潛在詞為一個字符串；步驟6：冗余過濾：對粗糙字典計算出現頻率，按照規則一至規則三過濾掉因窮舉所帶來的冗余詞條；步驟7：正則式過濾：結合規則四對開頭和結尾為特定詞匯的詞條剔除；步驟8：潛在詞補償：對步驟5的結果依據規則六進行處理；步驟9：低頻詞剔除：基于某一個出現頻率的閥值過濾詞典，對于出現次數小于閥值的直接刪除；步驟10：特征詞補償：對一些電子商務領域中的特征詞做補償處理，如長度過長的品牌名稱等領域特征詞做補償處理。

【技術特征摘要】
1..一種電子商務字典自動生成方法，其特征在于，包括以下步驟步驟I:數據爬取從電子商務網站、搜索引擎爬取原始商品數據；步驟2 :預處理對采集的原始商品數據進行預處理，過濾其中垃圾信息并做結構化處理；步驟3 :遞進窮舉采用遞進窮舉方法按合理長度窮舉各種分詞組合，同時累計各種組合出現的頻率，形成完整的包含所有可能組合的粗糙字典；步驟4 :詞頻統計對字典中各個詞條的出現次數進行統計，對每遇到一次把相應詞條的 count 加 I ；步驟5 :歸并處理按規則五進行合并處理，一組潛在詞如果字數相同、出...

【專利技術屬性】
技術研發人員：姚明東，范英磊，陳浩，
申請(專利權)人：姚明東，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術