• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于時間分片的Web用戶瀏覽訪問矩陣的構造方法技術

    技術編號:8453107 閱讀:231 留言:0更新日期:2013-03-21 17:38
    一種基于時間分片的Web用戶瀏覽訪問矩陣的構造方法,根據用戶在服務器的訪問記錄,采用時間分片的方法,將用戶訪問記錄按訪問的月份、星期和每天時段分成三類,分別轉換成為三個訪問矩陣數組,并為每類訪問矩陣賦予相應的權重參數,最終得到一個平均訪問矩陣。當用戶訪問網站的時候,將該平均訪問矩陣作為輸入,即可利用現有的偏愛路徑算法得到用戶偏愛瀏覽路徑。本方法反映了不同時間用戶的偏愛瀏覽行為也不同的特點,因而能獲得更準確的用戶偏愛瀏覽路徑。同時,不同時間訪問矩陣的權重參數可調節,增加了本方法的靈活性和適應性。

    【技術實現步驟摘要】

    本專利技術涉及如何根據用戶瀏覽網頁在服務器端留下的日志記錄,得到用戶偏愛瀏覽路徑的方法,尤其涉及一種,屬于Web數據挖掘

    技術介紹
    近幾年來,Web技術的飛速發展,使得網絡數據成為全球最大的信息資料源。最近的調查資料表明,全球有超過10億張的網頁數量,而且每天還在有無數的網頁不停地增加和刪除。如何在這些海量信息中提取出有用的信息,對各個企業和網站都有著重要的巨大的商業價值。數據挖掘就是研究這種信息挖掘技術的一個領域,它研究如何從大量信息的集合中挖掘出規則模式。作為一個嶄新的研究領域,它正逐漸成為許多研究者的興趣焦點。Web挖掘主要可以分為三類研究方向l)Web內容挖掘;2)Web結構挖掘;3)Web使用挖掘。Web使用挖掘也叫做Web日志挖掘。Web日志記錄和匯聚了用戶什么時候請求了什么資源,接收了什么數據的用戶訪問情況。因此,Web日志挖掘是幫助理解用戶訪問行為和網站結構的一個有用的方法。很多基于Web的應用都需要針對用戶進行信息個性化處理。在電子商務中針對不同用戶的瀏覽行為和喜好,為不同用戶提供相應的動態采購建議。迄今為止,Web日志挖掘方法可以分為以Chen為代表的基于Web事務的方法和以Han為代表的基于數據立方體的方法。Chen提出了基于Web事務的方法,這種方法主要算法是最大先前序列法。最大向前序列法先將日志中的用戶瀏覽歷史記錄轉換成一個瀏覽子序列集,然后根據用戶折返的特性形成若干瀏覽子序列,最后利用關聯規則法對瀏覽子序列進行挖掘找出頻繁訪問路徑。這種方法主要有點是能夠很好反應用戶真實的瀏覽情況,缺點是不能排除用戶的誤操作,并且在處理較大的用戶數據的過程中開銷較大。Han把Web服務器訪問日志集成到數據立方體結構(Data Cubestructure)中,這樣就可以對訪問日志用OLAP(傳統的在線數據分析處理過程)來處理日志數據了。因為其分析主要用的是動態網站日志,因此,他假定客戶端的緩存影響不大。這種算法的優越之處在于可以利用OLPA分析數據,比較節省工作,缺點是,客戶端的緩存在挖掘過程中的影響不能忽略,并且這種方法沒有提出一個有效的區分用戶Session的方法。邢東山在Chen的基礎上提出了用戶偏愛度的概念。算法主要思想是建立一個矩陣,行坐標是當前網址(Universal Resource Locator, URL),列坐標是引用URL (就是當前的URL的上一個URL),這樣構成了一個稀疏訪問矩陣,然后對于每一行,系數大于一個給定值即用戶瀏覽偏愛度。為了節約空間,對這個稀疏訪問矩陣,轉換成一個三元組(行URL,列URL,對應的偏愛度)。利用算法將滿足條件的路徑加入到用戶偏愛瀏覽路徑里面。這種方法沒有考慮將用戶瀏覽的時間作為一個標準,因為用戶在不同的時間里面可能有不同的偏愛瀏覽路徑。
    技術實現思路
    本專利技術所要解決的技術問題是針對上述
    技術介紹
    的不足,提供了一種,因此我們提出一種方法,在用戶偏愛路徑基礎上增加了時間分片的思想,我們知道不同時間用戶的偏愛瀏覽行為時不同的,于是我們按照不同的時間得到的用戶瀏覽訪問矩陣也是不同的,按照這個做數據挖掘得到的結果也是不同的。這種方法能夠有效地為用戶在不同的時間給出不同的推薦頁面。從而靈活、有效地為用戶推薦偏愛瀏覽路徑。本方法適合在服務器上面配置了互聯網信息服務(Internet InformationService, IIS)的 Web 站點使用。本專利技術為實現上述專利技術目的采用如下技術方案一種,其特征是在數據清洗階段,根據互聯網信息服務中的日志文件,建立并存儲Web用戶的訪問記錄表,然后,根據 Web用戶訪問記錄表中的訪問時間,按月份、星期、每天時段三種不同粒度分別為每個Web用戶建立三個時間分片的訪問矩陣數組,當用戶訪問網站的時候,按照用戶訪問時間及權重計算得到一個平均訪問矩陣,將該平均訪問矩陣作為輸入,利用現有的偏愛路徑算法得到用戶偏愛瀏覽路徑;包括如下步驟步驟1,數據清洗階段,根據互聯網信息服務(IIS)中的日志文件,建立并存儲Web用戶的訪問記錄表,每條記錄表示某個用戶在一個訪問時間點,從上一個引用頁面跳轉到當前訪問頁面的過程。該表的主要結構包括用戶IP地址,用戶操作系統,用戶瀏覽器,用戶訪問時間,引用頁面,訪問頁面,其中,根據用戶訪問IP地址、用戶操作系統和用戶瀏覽器將不同的用戶區分開來。步驟2,建立Web用戶瀏覽訪問矩陣根據Web用戶訪問記錄表中的訪問時間,按月份、星期、每天時段三種不同粒度進行時間分片,分別為每個Web用戶建立三個時間分片的訪問矩陣數組,包括一個有12個元素的月份訪問矩陣數組新4(V/;/ = l,2,…12).表示I月 12月;一個有7個元素的星期訪問矩陣/ !/],(▽/:/ = 1,2,...7),表示星期一 星期天;一個有3個元素的每天時段訪問矩陣/^],0^^=1,2,3),表示8:00 12:00、12:00 18:00和18:0(Γ次日8:00三個時段,每個訪問矩陣的結構是相同的,行表示引用頁面的網址(Universal Resource Locator, URL),列表示當前頁面的網址(URL),元素值為支持度,即用戶由引用頁面跳轉到訪當前頁面路徑的訪問次數,另外,訪問矩陣的行列都要添一個空值(NULL),在行向量里出現表示用戶不通過網頁鏈接而是通過直接輸入網址(URL)、用書簽來訪問或從其它網站鏈接進入當前訪問網頁;在列向量里出現表示用戶在此頁結束瀏覽或鏈接到其它網站網頁;步驟3,計算平均訪問矩陣當Web用戶訪問網站時候,系統根據訪問時間,計算出該訪問時間的月份i、星期j、每天時段k,并從三個訪問矩陣數組M,W,D中分別取出相對應的M,W,D 矩陣元素,并用公式(I)求平均訪問矩陣N N= α * Μ + β · ff + Y · D(I)其中,α,β,γ分別是月份訪問矩陣、星期訪問矩陣、每天時段訪問矩陣的權重參數,且滿足0<α,β,γ;^1,α+β + γ=1;步驟4,利用現有的用戶偏愛路徑算法,以平均訪問矩陣N作為輸入,得到用戶偏愛瀏覽路徑。通過調節α,β, Y的權值,控制平均訪問矩陣,以適應不同的應用環境;具體方法是取α : β : Y =12:7:3,即a =^,/3當需要得到月份時間粒度下的用11 22 22戶偏愛瀏覽路徑時,取α=1,β=0, Y=O;當需要得到星期時間粒度下的用戶偏愛瀏覽路徑時,取α=0,β=1, Y=O;當需要得到每天時段時間粒度下的用戶偏愛瀏覽路徑時,取α =0, β =0, Y =1。 本專利技術具有以下優點及有益效果(I)本方法反映了不同時間用戶的偏愛瀏覽行為也不同的特點,因而能獲得更準確的用戶偏愛瀏覽路徑;(2)不同時間分片的訪問矩陣的權重參數可調節,增加了本方法的靈活性和適應性。附圖說明圖1的總流程圖。具體實施例方式下面結合附圖對專利技術的技術方案進行詳細說明。圖1是的總流程圖,該方法首先進行數據清洗,建立Web用戶訪問記錄表;接著建立時間分片的Web用戶瀏覽訪問矩陣;然后,按照用戶訪問時間計算平均訪問矩陣;最后,以平均訪問矩陣輸入現有的用戶偏愛路徑算法即可得到用戶偏愛瀏覽路徑。具體包括如下步驟步驟I,數據清洗階段,根據互聯網信息服務(IIS)中的本文檔來自技高網
    ...

    【技術保護點】
    基于時間分片的Web用戶瀏覽訪問矩陣的構造方法,其特征是:在數據清洗階段,根據互聯網信息服務中的日志文件,建立并存儲Web用戶的訪問記錄表,然后,根據Web用戶訪問記錄表中的訪問時間,按月份、星期、每天時段三種不同粒度分別為每個Web用戶建立三個時間分片的訪問矩陣數組,當用戶訪問網站的時候,按照用戶訪問時間及權重計算得到一個平均訪問矩陣,將該平均訪問矩陣作為輸入,利用現有的偏愛路徑算法得到用戶偏愛瀏覽路徑;包括如下步驟:步驟1,數據清洗階段,根據互聯網信息服務中的日志文件,建立并存儲Web用戶的訪問記錄表,每條記錄表示某個用戶在一個訪問時間點,從上一個引用頁面跳轉到當前訪問頁面的過程;記錄表的結構包括:用戶IP地址、用戶操作系統、用戶瀏覽器、用戶訪問時間、引用頁面、訪問頁面,其中,根據用戶訪問IP地址、用戶操作系統和用戶瀏覽器將不同的用戶區分開來;步驟2,建立Web用戶瀏覽訪問矩陣:根據Web用戶訪問記錄表中的訪問時間,按月份、星期、每天時段三種不同粒度進行時間分片,分別為每個Web用戶建立三個時間分片的訪問矩陣數組,包括:一個有12個元素的月份訪問矩陣數組表示1月~12月;一個有7個元素的星期訪問矩陣表示星期一~星期天;一個有3個元素的每天時段訪問矩陣表示8:00~12:00、12:00~18:00和18:00~次日8:00三個時段,每個訪問矩陣的結構是相同的,行表示引用頁面的網址,列表示當前頁面的網址,元素值為支持度,即用戶由引用頁面跳轉到訪當前頁面路徑的訪問次數,另外,訪問矩陣的行列都要添一個空值,在行向量里出現表示用戶不通過網頁鏈接而是通過直接輸入網址、用書簽來訪問或從其它網站鏈接進入當前訪問網頁;在列向量里出現表示用戶在此頁結束瀏覽或鏈接到其它網站網頁;步驟3,計算平均訪問矩陣:當Web用戶訪問網站時候,系統根據訪問時間,計算出該訪問時間的月份i、星期j、每天時段k,并從三個訪問矩陣數組M,W,D中分別取出相對應的M[i],W[j],D[k]矩陣元素,并用公式(1)求平均訪問矩陣N:N=α·M[i]+β·W[j]+γ·D[k]?????(1)其中,α,β,γ分別是月份訪問矩陣、星期訪問矩陣、每天時段訪問矩陣的權重參數,且 滿足:0≤α,β,γ≤1,α+β+γ=1;步驟4,利用現有的用戶偏愛路徑算法,以平均訪問矩陣N作為輸入,得到用戶偏愛瀏覽路徑。FDA00002561017400011.jpg,FDA00002561017400012.jpg,FDA00002561017400013.jpg...

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:吳家皋袁堂朋鄒志強
    申請(專利權)人:南京郵電大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩av无码| 好爽毛片一区二区三区四无码三飞 | 人妻少妇伦在线无码| 亚洲国产精品成人AV无码久久综合影院 | 亚洲中文字幕无码av| 国产无码网页在线观看| 国产AV无码专区亚洲Av| 无码乱码观看精品久久| 亚洲精品无码久久久久久久| 精品一区二区无码AV| 免费a级毛片无码a∨性按摩| 久久久无码人妻精品无码| 东京热人妻无码人av| 国产怡春院无码一区二区| 亚洲熟妇无码一区二区三区导航| 中文无码熟妇人妻AV在线| 国产精品爽爽V在线观看无码| 亚洲av无码片区一区二区三区| 中文字幕精品无码一区二区三区| 成人免费无码大片a毛片| 亚洲αⅴ无码乱码在线观看性色| 亚洲熟妇无码八AV在线播放| 麻豆人妻少妇精品无码专区| 内射人妻无套中出无码| 国产强被迫伦姧在线观看无码| 91久久九九无码成人网站| 无码人妻丰满熟妇区五十路百度| 中文一国产一无码一日韩| 本道天堂成在人线av无码免费| 无码国产成人午夜电影在线观看| 综合无码一区二区三区四区五区| 国产成人精品无码一区二区老年人| 久久精品岛国av一区二区无码| 黄A无码片内射无码视频| 无码人妻少妇伦在线电影| 内射无码午夜多人| 亚洲国产精品无码久久青草| 久久亚洲国产成人精品无码区| 精品无码国产污污污免费网站国产| 免费无码婬片aaa直播表情| 亚洲AV无码乱码在线观看牲色|