【技術實現步驟摘要】
一種基于邏輯回歸的文獻推薦系統的排序方法
[0001]本專利技術涉及個性化推薦
,尤其涉及一種基于邏輯回歸的文獻推薦系統的排序方法。
技術介紹
[0002]從知識服務平臺上閱讀、下載文獻是各大學術研究人員獲取知識的重要途徑。知識服務平臺上有海量的文獻,這些數據具有豐富的發掘價值和預測潛力;但面對大量的文獻,用戶篩選出匹配的信息所花費的成本更高了。應用數據挖掘技術發掘文獻特征和用戶興趣特點,使用機器學習技術推薦文獻,能快速從紛繁復雜的文獻中獲取有效的信息,讓用戶在搜索和分類結果之外發現更感興趣、更個性化的文獻補充。通過系統引導用戶發現信息,讓用戶發現一些新穎和令人驚喜的內容;靠知識內容留人,提升用戶粘性;合理利用流量,提升平臺收益。
[0003]現有知識服務平臺上的文獻推薦打分策略,特征簡單,過于依靠人工策略,缺少數學依據。而深度學習模型雖然在較多領域效果顯著,但需新增過多的工程設計和代碼,才能上線部署,還會增加較多線上延時,無法迅速迭代。邏輯回歸模型結構簡單,采用梯度下降的方式尋求最優解,效果顯著并且訓練和工程開銷小。
技術實現思路
[0004]為解決上述技術問題,本專利技術的目的是提供一種基于邏輯回歸的文獻推薦系統的排序方法。
[0005]本專利技術的目的通過以下的技術方案來實現:
[0006]一種基于邏輯回歸的文獻推薦系統的排序方法,包括:
[0007]步驟A分析推薦應用場景,確立學習目標;
[0008]步驟B分析用戶日志分布,試驗并確定采樣方案;r/>[0009]步驟C獲取特征數據,構建特征數據集合;
[0010]步驟D分析文獻側、機構側、作者側以及交互特征,進行特征篩選;
[0011]步驟E將文獻推薦作為分類問題,采用邏輯回歸模型訓練;
[0012]步驟F 劃分同等流量,將訓練好的模型進行線上評估。
[0013]與現有技術相比,本專利技術的一個或多個實施例可以具有如下優點:
[0014]1、對文獻信息和用戶行為進行詳細地特征相關性分析,構建能提升文獻推薦效果的有效特征。
[0015]2、采用文獻側、學者側、機構側以及上下文等多個維度數據,構建豐富的特征體系;采用實時畫像,及時捕捉用戶偏好。更能代表用戶興趣,使得推薦列表更準確。
[0016]3、將邏輯回歸用于文獻推薦系統,模型簡單并且訓練開銷小,易于工程化和并行化,能迅速迭代并獲得線上效果。
附圖說明
[0017]圖1是基于邏輯回歸的文獻推薦系統的排序方法流程圖;
[0018]圖2是基于邏輯回歸的文獻推薦系統的排序方法示意圖;
[0019]圖3是部分特征相關性分析示例圖;
[0020]圖4是邏輯回歸模型的計算邏輯圖。
具體實施方式
[0021]為使本專利技術的目的、技術方案和優點更加清楚,下面將結合實施例及附圖對本專利技術作進一步詳細的描述。
[0022]如圖1所示,為基于邏輯回歸的文獻推薦系統的排序方法,包括:
[0023]1)分析推薦應用場景,確立學習目標
[0024]用戶在使用學術類數字資源平臺時,對于曝光的文獻列表中感興趣的內容,可能產生點擊、下載、收藏和關注等行為。在平臺上下載文獻會帶來一定的經濟收益,而現在的頁面設計,下載行為是基于點擊行為的,用戶產生點擊后才會下載,當點擊量提升后下載量才有提升的可能;另外下載行為非常稀疏,數據噪聲大,容易過擬合。因此將點擊行為作為正樣本,僅曝光的文獻作為負樣本,使用模型擬合點擊率。
[0025]2)分析用戶日志分布,實驗并確定采樣方案
[0026]獲取用戶行為日志并清洗,分析樣本數據分布。從推薦日志中直接獲取的數據,用戶的點擊文獻數量相比于曝光給用戶的文獻數量是較為稀疏的,導致正負樣本比例失衡,正樣本數量過少,很容易導致模型過擬合,利用失衡的數據訓練即便離線評估表現優異,但上線后實際效果并不理想。所以在采樣獲取訓練樣本時,正樣本全部保留,負樣本只取有點擊行為的用戶產生的曝光數據,舍棄無點擊行為用戶的所有行為日志數據。
[0027]3)獲取文獻、機構、作者以及用戶數據,構建特征數據集合
[0028]文獻數據包含文獻發表時間、下載量、被引量、相關度、影響因子等信息;機構數據包含機構專業領域、發文量、下載量(排名)、被引量(排名)、項目數量、科研人員數量等信息;作者數據包含作者發文總量、核心期刊發文量、被引量、H指數、G指數等信息;用戶數據包含興趣愛好等基本信息以及操作文獻、操作時間等行為日志信息;構建特征數據集合包括:對文獻、機構、作者、用戶基本信息建模得到單邊特征,對用戶行為日志建模得到雙邊特征。
[0029]數據和特征決定了機器學習算法的上限,而模型和算法只是不斷逼近這個上限而已,所以豐富的特征在排序系統中至關重要。獲取豐富的特征數據的步驟如下:
[0030]第一步獲取文獻側特征
[0031]文獻側特征包含基礎特征、統計特征和類別特征。文獻基礎特征包含發表時間、下載量、被引量、相關度、影響因子等,統計特征包含一段時間內推薦側(推薦系統中文獻)的瀏覽率、下載率、收藏率等,類別特征包含文獻類型、行業類型、學科類型等。
[0032]第二步獲取學者側和機構側特征
[0033]學者側特征包含發文總量、核心期刊論文數、被引量、作者指數等屬性。通過將文獻的第一作者與學者庫中的相應字段關聯,獲取學者側多個特征。機構側特征包含各專業領域發文量、下載量(排名)、被引量(排名)、項目數量、科研人員數量等屬性。通過將文獻所
屬的機構和學科類型,與機構庫中的相應字段關聯,獲取機構側各專業領域的多個屬性;一篇文獻屬于多個機構的多個學科時,取第一個機構,機構下各個學科的屬性平均值,作為特征。例如:文獻i屬于d1、d2兩所機構,同時文獻i又是s1、s2兩個學科相關的文獻,第一個機構d1中學科s1和學科s2對應的下載量分別是n1和n2,則取(n1+n2)/2作為機構下載量特征值。
[0034]第三步獲取交互類特征
[0035]用戶和文獻的交互類特征是最能反映用戶個性化的特征,包含用戶對行業、學科、期刊、文獻的偏好?;诙鄠€時間窗口構建用戶和文獻交互類特征,例如構造用戶近三個月瀏覽是否核心期刊的交互特征的步驟為:首先,獲取用戶近三個月瀏覽核心期刊的次數和非核心期刊的次數,如果瀏覽核心刊的數量大于瀏覽非核心刊,則認為用戶對核心刊更感興趣,將用戶對核心刊的偏好存入用戶畫像中;其次,對于召回集合中的文獻,是核心刊則該特征為1,是非核心刊則為0,非期刊文獻則為缺失值。當窗口較小時、用戶重復率低時,效果不明顯;采用最近三個月的偏好,效果較好。說明在一定時間范圍內,用戶興趣累積越豐富推薦依據越強效果越好。當然最近一周、一個月等的偏好也會被考慮在內作為近期或長期偏好特征,由模型學習這些偏好的重要程度生成模型參數。
[0036]處理獲取到的特征,包含數值特征的歸一化,例如將下載量、被引量等歸一化到0
?
...
【技術保護點】
【技術特征摘要】
1.一種基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,包括以下步驟:步驟A分析推薦應用場景,確立學習目標;步驟B分析用戶日志分布,試驗并確定采樣方案;步驟C獲取特征數據,構建特征數據集合;步驟D分析文獻側、機構側、作者側以及交互特征,進行特征篩選;步驟E將文獻推薦作為分類問題,采用邏輯回歸模型訓練;步驟F劃分同等流量,將訓練好的模型進行線上評估。2.如權利要求1所述的基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,所述步驟B包括:獲取用戶行為日志并清洗,分析樣本數據分布;在采樣獲取訓練樣本時,采用有點擊行為用戶的相關數據,包括所有曝光文獻數據和用戶行為日志。3.如權利要求1所述的基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,所述步驟C中特征數據包括文獻側、機構側、作者側及用戶數據;其中,文獻側包含文獻發表時間、下載量、被引量、相關度、影響因子;機構側包含機構專業領域、發文量、下載量、被引量、項目數量、科研人員數量;作者側包含作者發文總量、核心期刊發文量、被引量、H指數、G指數;用戶數據信息包含興趣愛好以及操作文獻、操作時間;構建特征數據集合是指對文獻、機構、作者、用戶基本信息建模得到單邊特征,對用戶行為日志建模得到雙邊特征。4.如權利要求3所述的基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,獲取特征數據的步驟包括:C1獲取文獻側特征;C2獲取學者側和機構側特征;C3基于多個時間窗口構建用戶和文獻交互類特征。5.如權利要求2所述的基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,所述C1中:文獻側特征包含基礎特征、統計特征和類別特征,其中,文獻基礎特征包含發表時間、下載量、被引量、相關度、影響因子;統計特征包含一段時間內推薦側的瀏覽率、下載率、收藏率;類別特征包含文獻類型、行業類型、學科類型。6.如權利要求2所述的基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,所述C2中:通過將文獻的第一作者與學者庫中的相應字段關聯,獲取學者側多個特征,學者側特征包含發文總量、核心期刊論文數、被引量、作者指數;通過將文獻所屬的機構和學科類型,與機構側中的相應字段關聯,獲取機構側各專業領域的多個特征;機構側特征包含各專業領域發文量、下載量被引量、項目數量、科研人員數量。7.如權利要求1所述的基于邏輯回歸的文獻推薦系統的排序方法,其特征在于,所述D包括:對收集到的三類特征數據進行預處理,包括去除異常值、去除遠離數據分布的噪聲數據;所述三類特征數據包括文獻側特征數據、機構側特征數據和作者側特征數據;對于連續性特征,計算特征向量與正負樣本標簽向量之間的皮爾遜相關參數,分析特
征與擬合目標之間的相關性。8.如權利要求6所述的基于邏輯回歸的文...
【專利技術屬性】
技術研發人員:張良,江程,肖銀濤,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。