本發明專利技術公開了一種電子商務字典自動生成方法,包括以下步驟:步驟1:數據爬取:從電子商務網站、搜索引擎爬取原始商品數據;步驟2:預處理;步驟3:遞進窮舉;步驟4:詞頻統計;步驟5:歸并處理;步驟6:冗余過濾;步驟7:正則式過濾;步驟8;步驟9:低頻詞剔除;步驟10:特征詞補償。主要優點包括:一是生成字典的速度快,采用機器學習、智能過濾、糾偏、補償等算法自動生成字典、可大大提高生成效率。二是生成字典收錄率高,由于采用了遞進窮舉方法對文本進行分詞,因此在分詞過程中很少會漏掉詞條。三是生成的字典更加精煉,結合糾偏、冗余過濾、正則過濾等處理算法,消除字典中的冗余和錯誤,最終生成的電子商務字典更加精煉。
【技術實現步驟摘要】
本專利技術涉及的是一種電子商務字典自動生成方法。主要面向電子商務領域,電子商務字典是電子商務網站應用的基礎,譬如在搜索、推薦、語義分詞、排序權重計算等多方面都需要用到。
技術介紹
目前面向電子商務的字典很少見,目前主流應用如淘寶大多采用手工生成或簡單統計生成,也有部分采用機器學習的方法去搜集詞條形成字典。但傳統方法的缺點主要包括一是手工處理工作量大二是由于電子商務領域應用新商品層出不窮變化非常快,傳統方式更新速度慢三是自動生成方法的精確度低,結果比較粗糙。·
技術實現思路
本專利技術針對電子商務領域特點,提出一套電子商務字典的自動生成方法,可從HTML網頁等商品描述數據源中提取商品相關原始信息,通過遞進窮舉方法對文本進行切分,然后結合相應的糾偏和補償算法對字典數據進行提純,最終得到高質量的電子商務領域字典。該字典可廣泛使用于搜索、語義分詞、推薦、權重計算等電子商務應用中。本專利技術的技術方案如下步驟I :數據爬取從電子商務網站、搜索引擎爬取原始商品數據;步驟2 :預處理對采集的原始商品數據進行預處理,過濾其中垃圾信息并做結構化處理;步驟3 :遞進窮舉采用遞進窮舉方法按合理長度窮舉各種分詞組合,同時累計各種組合出現的頻率,形成完整的包含所有可能組合的粗糙字典;步驟4 :詞頻統計對字典中各個詞條的出現次數進行統計,對每遇到一次把相應詞條的count加I ;步驟5 :歸并處理按規則五進行合并處理,一組潛在詞如果字數相同、出現次數相同,同時有公共子串,并且公共子串出現頻率與潛在詞次數相同,則合并兩個潛在詞為一個字符串;步驟6 :冗余過濾對粗糙字典計算出現頻率,按照規則一至規則三過濾掉因窮舉所帶來的冗余詞條;步驟7 :正則式過濾結合規則四對開頭和結尾為特定詞匯的詞條剔除;步驟8 :潛在詞補償對步驟5的結果依據規則六進行處理;步驟9 :低頻詞剔除基于某一個出現頻率的閥值過濾詞典,對于出現次數小于閥值的直接刪除;步驟10 :特征詞補償對一些電子商務領域中的特征詞做補償處理,如長度過長的品牌名稱等領域特征詞做補償處理。電子商務領域新名詞更新頻率高,采用傳統的手工方式去處理工作量大且更新速度慢。本專利技術的主要優點包括一是生成字典的速度快,采用機器學習、智能過濾、糾偏、補償等算法自動生成字典、可大大提高生成效率。二是生成字典收錄率高,由于采用了遞進窮舉方法對文本進行分詞,因此在分詞過程中很少會漏掉詞條;采用補償的方法,補充了一部分長度較長,同時在電子商務領域中很有意義的詞條,所以收錄率高。三是生成的字典更加精煉,結合糾偏、冗余過濾、正則過濾等處理算法,,消除字典中的冗余和錯誤,最終生成的電子商務字典更加精煉。具體實施例方式以下結合具體實施例,對本專利技術進行詳細說明。本方法的詳細實現步驟包括步驟I :數據爬取從電子商務網站、搜索引擎等原始數據源爬取原始數據,原始數 據一般為HTML網頁,HTML網頁中包含商品名稱、型號、描述等商品信息;通過文本抽取和分類后保存為包含商品信息的粗糙文本;步驟2 :預處理分析文本中的HTML標簽,過濾步驟I中商品信息的垃圾數據,如圖像鏈接、網址、HTML標簽;然后對商品信息做結構化處理,獲得不含標點符號和HTML標簽的商品描述純文本信息;步驟3 :遞進窮舉對采集的信息文本做全切分,初始位置為文本字符串的第一個字符,按合理長度(可調整)向后切分字符串,采用遞進窮舉方法每次遞進一個字符在一個合理的范圍內(默認為6)窮舉各種分詞組合,形成包含較多冗余數據的粗糙字典Z ;步驟4 :詞頻統計對字典Z中各個詞條的出現次數進行統計,對每遇到一次把相應詞條的count加I :步驟5 :歸并處理按規則5進行合并處理,一組潛在詞如果字數相同、出現次數相同,同時有公共子串,并且公共子串出現頻率與潛在詞次數相同,則合并兩個潛在詞為一個字符串;步驟6 :冗余過濾對粗糙字典計算出現頻率,按照規則1-3過濾掉因窮舉所帶來的冗余詞條;步驟7 :正則式過濾結合規則4對開頭和結尾為特定詞匯的詞條剔除;步驟8 :潛在詞補償對步驟5的結果依據規則6進行處理;步驟9 :低頻詞剔除基于某一個出現頻率的閥值過濾詞典,對于出現次數小于閥值的直接刪除步驟10 ;特征詞補償對一些電子商務領域中的特征詞做補償處理,比如品牌、屬性名等直接作為有效詞加入字典中(如長度過長的品牌名稱等領域特征詞做補償處理)I、規則一基于公共前綴或公共后綴過濾重復提取的無效子串經過遞進窮舉處理后,會產生大量重復提取的無效子串,對有公共前綴或公共后綴且長度相同的潛在詞過濾掉重復提取的公共前綴或公共后綴,比如如下情況Wordcount器類型775 傳感器類型 627 溫控器類型 99 取景器類型 48 顯示器類型 I775 = 627+99+48+1片拍攝532 短片拍攝 338 照片拍攝 180 影片拍攝 11 相片拍攝3532 = 338+180+11+3以上第一個例子是包含潛在詞“器類型”的最短潛在詞(字數為5)有共同的后綴(如果是共同前綴也可)“器類型”,并且count之和與“器類型”的count —致,說明“器類型”沒有單獨作為一個詞出現過,這種情況下將“器類型”從潛在詞表中刪除。第二個例子是包含潛在詞“片拍攝”的最短潛在詞(字數為4)有共同的后綴(如果是共同的前綴也可)“片拍攝”,并且count之和與“片拍攝”的count —致,說明“片拍攝”沒有單獨作為一個詞出現過,這種情況下將“器類型”從潛在詞表中刪除。Wordcount 控器387 溫控器342遙控器38 搖控器6387-342-38-6 = I這個例子含潛在詞“控器”的最短潛在詞(字數為3)有共同的后綴(如果是共同的前綴也可)“控器”,并且count之和與“控器”的count非常接近(這個可以通過一個閥值界定),說明“片拍攝”單獨作為一個詞出現的最大次數為他們的差值,這種情況下將“控器”的count減掉其余所有count的和。2、規則二 基于統計次數的等頻重復子串過濾(I)把所有出現次數相同的潛在詞,用最長的一個去跟其它的比較,其它所有是最長潛在詞的子串的潛在詞,從潛在詞詞典中刪除。這種情況說明其它最長潛在詞的子串只能出現在最長潛在詞中,其它情況下不會出現,所以把最長的留下就可以了,其余的都是垃圾。舉例如下wordcount禮品箱包340禮品箱340品箱包340 品箱340 工作340盡管個數相同,但是因為不是禮品箱包的子串,所以依然保留;這樣做有兩個好處1)減少了很多垃圾;2)留下的最長潛在詞對我們做最長匹配很有意義。(2)另一個例子wordcount非質量問題108非質量問108非質量108非質108針織108針對108英國108美麗108是一種108攜帶108揚聲器108成的108感器108強大108布擦108·尚男108聲器108售出108品味108傳感器108人性108下的108這種情況下我之前說的用最長潛在詞去匹配的做法會對數據處理不徹底,比如本例中只有“非質量問題”的垃圾子串能處理掉;“時尚男”,“傳感器”,“揚聲器”的垃圾子串處理不掉。所以我想我們的處理策略變一下,依次用長度遞增的潛在詞去匹配其它更長的潛在詞,比如本例中首先用每一個長度為2的潛在詞去匹配所有長度大于2的潛在詞,去除本文檔來自技高網...
【技術保護點】
一種電子商務字典自動生成方法,其特征在于,包括以下步驟:步驟1:數據爬取:從電子商務網站、搜索引擎爬取原始商品數據;步驟2:預處理:對采集的原始商品數據進行預處理,過濾其中垃圾信息并做結構化處理;步驟3:遞進窮舉:采用遞進窮舉方法按合理長度窮舉各種分詞組合,同時累計各種組合出現的頻率,形成完整的包含所有可能組合的粗糙字典;步驟4:詞頻統計:對字典中各個詞條的出現次數進行統計,對每遇到一次把相應詞條的count加1;步驟5:歸并處理:按規則五進行合并處理,一組潛在詞如果字數相同、出現次數相同,同時有公共子串,并且公共子串出現頻率與潛在詞次數相同,則合并兩個潛在詞為一個字符串;步驟6:冗余過濾:對粗糙字典計算出現頻率,按照規則一至規則三過濾掉因窮舉所帶來的冗余詞條;步驟7:正則式過濾:結合規則四對開頭和結尾為特定詞匯的詞條剔除;步驟8:潛在詞補償:對步驟5的結果依據規則六進行處理;步驟9:低頻詞剔除:基于某一個出現頻率的閥值過濾詞典,對于出現次數小于閥值的直接刪除;步驟10:特征詞補償:對一些電子商務領域中的特征詞做補償處理,如長度過長的品牌名稱等領域特征詞做補償處理。
【技術特征摘要】
1..一種電子商務字典自動生成方法,其特征在于,包括以下步驟 步驟I:數據爬取從電子商務網站、搜索引擎爬取原始商品數據; 步驟2 :預處理對采集的原始商品數據進行預處理,過濾其中垃圾信息并做結構化處理; 步驟3 :遞進窮舉采用遞進窮舉方法按合理長度窮舉各種分詞組合,同時累計各種組合出現的頻率,形成完整的包含所有可能組合的粗糙字典; 步驟4 :詞頻統計對字典中各個詞條的出現次數進行統計,對每遇到一次把相應詞條的 count 加 I ; 步驟5 :歸并處理按規則五進行合并處理,一組潛在詞如果字數相同、出...
【專利技術屬性】
技術研發人員:姚明東,范英磊,陳浩,
申請(專利權)人:姚明東,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。