The invention belongs to the technical field of relational database, in particular to a method for rapidly selecting important intervals according to a threshold value. The method of the invention comprises: a given data set;
【技術實現步驟摘要】
一種根據閾值快速篩選重要區間的方法
本專利技術屬于關系數據庫
,具體涉及一種在多維數據集根據閾值快速篩選重要區間的方法。
技術介紹
數據探索是近年來研究較多的領域。當用戶對于數據內容缺乏了解時,需要有一個不斷嘗試并修改查詢的過程,才能最終得到想要的結果,數據探索即在這一過程中對用戶進行引導,以減小所需的時間與精力開銷。傳統的數據探索方式都要求冗長的交互過程,但在服務器端本身已經具有所有數據的情況下,可以幫助用戶完成大量粗略的工作,給用戶提供一個較優的探索起點,但這一操作需要以增加計算資源為代價。多維數據集的容量一般較大,為了節約計算資源,需要更加高效的算法。尤其是對于重要區間的篩選,在查詢中十分常見頻繁,對其進行優化能夠有效提高整個流程的執行效率。
技術實現思路
本專利技術的目的是提出一種從多維數據集中快速篩選出符合給定閾值的重要區間的方法,以協助整體上的數據探索工作。本專利技術提出的根據閾值快速篩選重要區間的方法,包括:給定數據集D中的數據分布于維度A,對于A上任一區間[l,r],可以得到D在其上的相關程度score([l,r])。要解決的問題可以嚴格描述如下:給定閾值k,找出所有的區間[l,r]滿足如下條件:score([l,r])≥k∧score([l-1,r])<k∧score([l,r+1])<k計算方法如下:對于每一個右邊界r,計算出符合條件的左邊界LBr,以確保score([LBr,r])≥k且score([LBr-1,r])<k。根據上一步計算得到的數組LB,將右邊界r從大到小遍歷,如果對應的左邊界LBr比之前輸出過的所 ...
【技術保護點】
一種根據閾值快速篩選重要區間的方法,其特征在于,具體步驟如下:(1.1)給定數據集
【技術特征摘要】
1.一種根據閾值快速篩選重要區間的方法,其特征在于,具體步驟如下:(1.1)給定數據集D中的數據分布于維度A,對于A上任一區間,得到D在其上的相關程度,根據閾值k篩選區間即為找出所有且無法再擴展的區間;(1.2)首先計算數組LB,對于每一個右邊界r,確保且;(1.3)根據步驟(1.2)中計算得到的,將右邊界從大到小遍歷,如果對應的左邊界比之前輸出過的所有值都小,就將作為結果輸出。2.根據權利要求1所述的方法,其特征在于,步驟(1.2)中所述計算LB的一種方法如下:(2.1)將右邊界r從小到大遍歷來依次計算相應的數值;(2.2)對于當前已經訪問過的數據,將其位置和值記錄下來成為的格式,說明當前到達左邊界且超過閾值所需要的最小的數值為,對于的計算即轉化為傳統的二分查找問題,從而在時間內完成;(2.3)于步驟(2.2)中的的數組...
【專利技術屬性】
技術研發人員:馬會心,楊智慧,何震瀛,王曉陽,
申請(專利權)人:復旦大學,
類型:發明
國別省市:上海,31
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。