【技術實現步驟摘要】
一種結構化信息檢索方法和系統
本申請涉及服務器集群的
,特別是涉及一種結構化信息檢索方法和系統,以及,一種建立結構化信息的索引的方法和系統。
技術介紹
電子商務(ElectronicCommerce,EC)是指在全球各地廣泛的商業貿易活動中,在因特網開放的網絡環境下,基于網絡通訊技術,買賣雙方可不謀面地進行各種商貿活動,實現消費者的網上購物、商戶之間的網上交易和在線電子支付,以及各種商務活動、交易活動、金融活動和相關的綜合服務活動的一種新型的商業運營模式。電子商務涵蓋的范圍很廣,一般可分為企業對企業(Business-to-Business,B2B)、企業對消費者(Business-to-Customer,B2C)或消費者對消費者(Customer-to-Customer,C2C)等模式。近幾年來,國內電子商務迅速發展,各種B2B、C2C、B2C模式的電子商務平臺(俗稱購物網站),如淘寶網、當當網、卓越亞馬遜、拍拍網、京東商城等,已被用戶認可和接受。賣家在電子商務平臺發布自己的產品,產生產品集合,所述產品具有一定的結構化信息;買家使用自定義的查詢詞在電子商務平臺搜索自己關心或欲購買的產品。可以看出,電子商務檢索的對象比較特殊,是賣家發布的產品結構化信息。另外,對于視頻網站或者其他數據信息平臺等,其上的數信息往往也是結構化的數據信息。隨著電子商務應用的國際化趨勢,需要設計越來越多的電子商務檢索框架以適應發展,目前已有許多針對世界第一大語言漢語、第二大語言英語做出的電子商務檢索框架,然而對于世界第三大語言西班牙語以及世界上的其他語言卻不能直接套用在先的這 ...
【技術保護點】
一種結構化信息檢索方法,其特征在于,包括:預置結構化信息的索引,所述結構化信息包括多個域的信息,所述索引包括各個域的倒排索引,以及,結構化信息的序列化索引;接收用戶提交的結構化信息查詢請求,所述請求中包括查詢關鍵詞;對所述查詢關鍵詞進行預處理;將預處理后的查詢關鍵詞在所述各個域的倒排索引中進行匹配,獲得滿足預設匹配規則的候選結構化信息;提取所述候選結構化信息對應的結構化信息的序列化索引,并按照預設的計分規則根據所述結構化信息的序列化索引計算所述候選結構化信息的分值;根據所述候選結構化信息的分值選取作為查詢結果的目標結構化信息。
【技術特征摘要】
1.一種結構化信息檢索方法,其特征在于,包括:預置結構化信息的索引,所述結構化信息包括多個域的信息,所述索引包括各個域的倒排索引,以及,結構化信息的序列化索引;接收用戶提交的結構化信息查詢請求,所述請求中包括查詢關鍵詞;對所述查詢關鍵詞進行預處理;將預處理后的查詢關鍵詞在所述各個域的倒排索引中進行匹配,獲得滿足預設匹配規則的候選結構化信息;提取所述候選結構化信息對應的結構化信息的序列化索引,并按照預設的計分規則根據所述結構化信息的序列化索引計算所述候選結構化信息的分值;根據所述候選結構化信息的分值選取作為查詢結果的目標結構化信息;其中,所述預置結構化信息的索引的步驟,進一步包括:獲取結構化信息,生成結構化信息庫;對所述結構化信息庫中結構化信息中各個域的信息進行預處理;針對經預處理后的各個域的信息建立各個域的倒排索引;以及,針對經預處理后各個域的信息建立結構化信息的序列化索引,包括:將預處理后的、不需要統計的對應域的信息進行序列化,以及,將經過統計運算之后形成的特征值也序列化,其中,不需要統計的對應域的信息包括各個域中的單詞以及數字信息;需要統計運算的信息包括預處理后各個域的信息。2.根據權利要求1所述的方法,其特征在于,所述結構化信息的序列化索引包括第一結構化信息序列化索引,以及,第二結構化信息序列化索引;所述針對預處理后各個域的信息建立結構化信息的序列化索引的子步驟,進一步包括:將預處理后各個域中的單詞采用哈希函數轉換為單詞ID;將預處理后各個域中的數字信息,以及,所述單詞ID進行序列化,保存為第一結構化信息序列化索引;以及,按照預置規則根據所述預處理后各個域的信息,計算對應結構化信息的特征值;將所述特征值保存為第二結構化信息序列化索引。3.根據權利要求2所述的方法,其特征在于,所述結構化信息為產品信息,所述多個域的信息包括:產品主題信息、產品關鍵詞信息、產品屬性信息、產品的概要描述信息和/或產品的詳細描述信息;所述特征值包括結構化信息質量參數;所述按照預置規則根據預處理后各個域的信息,計算對應結構化信息的特征值的子步驟,進一步包括:采用線性回歸模型,對結構化信息的產品主題信息、產品關鍵詞信息、產品屬性信息、產品的概要描述信息和產品的詳細描述信息進行擬合,獲得該結構化信息的結構化信息質量參數。4.根據權利要求1或2或3所述的方法,其特征在于,所述對所述結構化信息庫中結構化信息中各個域的信息進行預處理包括:對結構化信息的字符進行大小寫轉化,和/或,非法字符、不可見字符、特殊字符過濾,和/或重復字符剔除的操作;和/或,對結構化信息的字符串進行分詞,并針對分詞后的字符去除詞根,去除聲調和/或過濾數字,獲得單詞的詞干。5.根據權利要求2所述的方法,其特征在于,所述將預處理后的查詢關鍵詞在所述各個域的倒排索引中進行匹配,獲得滿足預設匹配規則的候選結構化信息的步驟,進一步包括:通過字符串匹配算法將預處理后的查詢關鍵詞在所述各個域的倒排索引中進行匹配,獲得所述預處理后的查詢關鍵詞在各個域的匹配度參數;累加所述查詢關鍵詞在結構化信息各個域的匹配度參數,獲得當前查詢關鍵詞的結構化信息相關性得分;按照所述相關性得分從高到低選取預設數量的結構化信息為候選結構化信息。6.根據權利要求5所述的方法,其特征在于,所述按照預設的計分規則根據所述結構化信息的序列化索引計算所述候選結構化信息的分值的步驟,進一步包括:根據所述第一結構化信息序列化索引計算所述候選結構化信息的第一評價參數;根據所述第二結構化信息序列化索引確定所述候選結構化信息的第二評價參數;根據所述第一評價參數和第二評價參數計算所述候選結構化信息的分值。7.根據權利要求6所述的方法,其特征在于,所述第一結構化信息序列化索引包括以下域信息的序列化數據:產品主題信息的序列化數據,產品關鍵詞信息的序列化數據;所述第一評價參數為查詢關鍵詞與結構化信息的相關度參數,所述根據第一結構化信息序列化索引計算候選結構化信息的第一評價參數的子步驟進一步包括:通過以下公式計算第一評價參數Score0:Score0=F0(f1,f2,f3,f4,f5,f6),其中,所述f1為查詢關鍵詞與相應產品主題信息中相同單詞與查詢關鍵詞長度的占比;所述f2為查詢關鍵詞與相應產品主題信息中相同單詞與產品主題信息長度的占比情況;所述f3為查詢關鍵詞在包含查詢關鍵詞的產品主題信息中的占比;所述f4為查詢關鍵詞在包含查詢關鍵詞的產品關鍵詞信息中的占比;所述f5為查詢關鍵詞與相應產品主題信息的序列化數據的匹配度;所述f6為查詢關鍵詞與相應產品關鍵詞信息的序列化數據的匹配度;以及,所述F0為線性回歸模型訓練的模型函數。8.根據權利要求6所述的方法,其特征在于,所述根據第二結構化信息序列化索引確定所述候選結構化信息的第二評價參數的子步驟,進一步包括:提取所述候選結構化信息對應的第二結構化信息序列化索引中的結構化信息質量參數,將所述結構化信息質量參數作為對應結構化信息的第二評價參數。9.根據權利要求...
【專利技術屬性】
技術研發人員:鄭偉,林鋒,金華興,孫麗,劉清富,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。