The invention discloses a data cleaning method and equipment. In the pre setting the index table and index statistics maintenance cleaning code template, when the arrival time synchronization according to the current state for statistical effective maintenance task list and index cleaning code template configuration data cleaning tasks, and the testing of the data cleaning, only in the data cleaning operation is tested successfully according to the index statistical tables and indexes of cleaning maintenance task scheduling code template configuration, and the data cleaning tasks issued to the production environment, to make the data warehouse for data cleaning. Thus, the data cleaning task can be automatically executed, the workload of data warehouse developers is reduced, and the efficiency of data development is improved.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種數(shù)據(jù)清洗方法及設(shè)備
本專利技術(shù)涉及通信
,特別涉及一種數(shù)據(jù)清洗方法。本專利技術(shù)同時(shí)還涉及一種數(shù)據(jù)清洗設(shè)備。
技術(shù)介紹
隨著DT(DataTechnology,數(shù)據(jù)處理技術(shù))時(shí)代的到來,數(shù)據(jù)價(jià)值日益凸顯。對(duì)于互聯(lián)網(wǎng)的平臺(tái)運(yùn)營商或者服務(wù)提供商來說,其各項(xiàng)業(yè)務(wù)對(duì)數(shù)據(jù)的需求正達(dá)到一個(gè)前所未有的高度。如何針對(duì)已有的數(shù)據(jù)進(jìn)行深入分析以及從數(shù)據(jù)中挖掘潛在的價(jià)值,成為本領(lǐng)域技術(shù)人員首要解決的技術(shù)問題。目前,業(yè)務(wù)團(tuán)隊(duì)和處理數(shù)據(jù)的技術(shù)人員正在逐步建立更加緊密的合作關(guān)系,其中一個(gè)重要的合作領(lǐng)域是模型部署。以可信體系的數(shù)據(jù)處理為例,該體系通過部署一套離線模型對(duì)某個(gè)賬戶在某個(gè)環(huán)境下的操作是否可信進(jìn)行識(shí)別,通過僅允許白名單的方式降低對(duì)用戶的打擾,以此提升用戶的使用體驗(yàn)。該可信模型基于賬戶和各種環(huán)境信息(MAC(MediaAccessControl,媒體介入控制層)、UMID(UniqueMaterialIdentifier,唯一素材識(shí)別碼)、TID(THREADIdentifier,線程控制符)等等)下的固定指標(biāo)進(jìn)行可信等級(jí)標(biāo)識(shí)(如指標(biāo)A>1,指標(biāo)B>2標(biāo)識(shí)為等級(jí)一,指標(biāo)A>3,指標(biāo)B>4標(biāo)識(shí)為等級(jí)二)。業(yè)務(wù)團(tuán)隊(duì)相應(yīng)的模型建設(shè)人員負(fù)責(zé)模型指標(biāo)和閾值的確定,處理數(shù)據(jù)的技術(shù)人員負(fù)責(zé)基礎(chǔ)指標(biāo)的清洗,模型部署和數(shù)據(jù)推送至應(yīng)用系統(tǒng),完成整個(gè)數(shù)據(jù)鏈路閉環(huán)。當(dāng)模型建設(shè)人員向處理數(shù)據(jù)的技術(shù)人員提交模型部署需求后,處理數(shù)據(jù)的技術(shù)人員在承接需求后需要進(jìn)行開發(fā)排期,指標(biāo)清洗和模型部署等一系列的操作,執(zhí)行完這一系列的流程。有時(shí)候在處理數(shù)據(jù)的技術(shù)人員資源緊張時(shí),模型部署會(huì)有較 ...
【技術(shù)保護(hù)點(diǎn)】
一種數(shù)據(jù)清洗方法,其特征在于,預(yù)先設(shè)置指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表以及指標(biāo)清洗代碼模板,該方法包括:當(dāng)?shù)竭_(dá)同步時(shí)刻時(shí),根據(jù)當(dāng)前狀態(tài)為有效的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表以及所述指標(biāo)清洗代碼模板配置數(shù)據(jù)清洗任務(wù),所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表包含當(dāng)前用于指標(biāo)清洗的元素及其對(duì)應(yīng)的數(shù)據(jù);對(duì)所述數(shù)據(jù)清洗任務(wù)進(jìn)行運(yùn)行測(cè)試;若所述數(shù)據(jù)清洗任務(wù)運(yùn)行測(cè)試成功,根據(jù)所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表以及所述指標(biāo)清洗代碼模板進(jìn)行調(diào)度配置,并將所述數(shù)據(jù)清洗任務(wù)發(fā)布至生產(chǎn)環(huán)境,以使數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)清洗。
【技術(shù)特征摘要】
1.一種數(shù)據(jù)清洗方法,其特征在于,預(yù)先設(shè)置指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表以及指標(biāo)清洗代碼模板,該方法包括:當(dāng)?shù)竭_(dá)同步時(shí)刻時(shí),根據(jù)當(dāng)前狀態(tài)為有效的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表以及所述指標(biāo)清洗代碼模板配置數(shù)據(jù)清洗任務(wù),所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表包含當(dāng)前用于指標(biāo)清洗的元素及其對(duì)應(yīng)的數(shù)據(jù);對(duì)所述數(shù)據(jù)清洗任務(wù)進(jìn)行運(yùn)行測(cè)試;若所述數(shù)據(jù)清洗任務(wù)運(yùn)行測(cè)試成功,根據(jù)所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表以及所述指標(biāo)清洗代碼模板進(jìn)行調(diào)度配置,并將所述數(shù)據(jù)清洗任務(wù)發(fā)布至生產(chǎn)環(huán)境,以使數(shù)據(jù)倉庫進(jìn)行數(shù)據(jù)清洗。2.如權(quán)利要求1所述的方法,其特征在于,對(duì)所述數(shù)據(jù)清洗任務(wù)進(jìn)行運(yùn)行測(cè)試,具體為:根據(jù)所述數(shù)據(jù)清洗任務(wù)執(zhí)行試跑流程,并判斷所述試跑流程是否成功;若所述試跑流程成功,對(duì)通過所述試跑流程得到的結(jié)果數(shù)據(jù)進(jìn)行驗(yàn)證;若所述數(shù)據(jù)的驗(yàn)證通過,確認(rèn)所述數(shù)據(jù)清洗任務(wù)運(yùn)行測(cè)試成功;若所述試跑流程失敗或所述數(shù)據(jù)的驗(yàn)證不通過,確認(rèn)所述數(shù)據(jù)清洗任務(wù)運(yùn)行測(cè)試失敗。3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述數(shù)據(jù)清洗任務(wù)執(zhí)行試跑流程,具體為:運(yùn)行所述指標(biāo)清洗代碼模板;根據(jù)所述指標(biāo)清洗代碼模板讀取所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表,并對(duì)所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表中各所述元素對(duì)應(yīng)的數(shù)據(jù)進(jìn)行解析;根據(jù)解析結(jié)果以及所述指標(biāo)清洗代碼模板拼接生成SQL語句,并運(yùn)行所述SQL語句。4.如權(quán)利要求1所述的方法,其特征在于,在到達(dá)同步時(shí)刻之前,還包括:獲取與各所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的當(dāng)前的狀態(tài);若存在狀態(tài)為待業(yè)務(wù)審批的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表,對(duì)所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表進(jìn)行業(yè)務(wù)審批,并在所述業(yè)務(wù)審批通過后將所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)更新為待技術(shù)審核;若存在狀態(tài)為待技術(shù)審核的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表,對(duì)所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表進(jìn)行技術(shù)審核,并在所述技術(shù)審核通過后將所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)更新為有效。5.如權(quán)利要求4所述的方法,其特征在于,還包括:若狀態(tài)為待業(yè)務(wù)審批的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的業(yè)務(wù)審批不通過,將所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)更新為業(yè)務(wù)審批待修改,以及將狀態(tài)為所述業(yè)務(wù)審批待修改的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表在修改后的狀態(tài)更新為待業(yè)務(wù)審批;若狀態(tài)為待技術(shù)審核的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的技術(shù)審核不通過,將所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)更新為技術(shù)審核待修改,以及將狀態(tài)為所技術(shù)審核待修改的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表在修改后的狀態(tài)更新為待技術(shù)審核。6.如權(quán)利要求4所述的方法,其特征在于,在獲取與各所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的當(dāng)前的狀態(tài)之前,還包括:當(dāng)接收到數(shù)據(jù)清洗任務(wù)新增請(qǐng)求時(shí),根據(jù)所述數(shù)據(jù)清洗任務(wù)新增請(qǐng)求中攜帶的各所述元素對(duì)應(yīng)的數(shù)據(jù)生成新增的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表,并將所述新增的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)設(shè)置為待業(yè)務(wù)審批;當(dāng)接收到數(shù)據(jù)清洗任務(wù)修改請(qǐng)求時(shí),根據(jù)所述數(shù)據(jù)清洗任務(wù)修改請(qǐng)求中攜帶的待修改元素對(duì)應(yīng)的數(shù)據(jù)以及所述數(shù)據(jù)清洗任務(wù)修改請(qǐng)求對(duì)應(yīng)的原始指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表生成新增的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表,并將所述新增的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)設(shè)置為待業(yè)務(wù)審批。7.如權(quán)利要求6所述的方法,其特征在于,還包括:若狀態(tài)為所技術(shù)審核待修改或所述業(yè)務(wù)審批待修改的指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表在預(yù)設(shè)的時(shí)間閾值內(nèi)未被修改,將所述指標(biāo)統(tǒng)計(jì)維護(hù)任務(wù)表的狀態(tài)更新為無效。8.一種數(shù)據(jù)清洗設(shè)備,其特征在于,所述設(shè)備預(yù)先設(shè)置指標(biāo)統(tǒng)計(jì)維護(hù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王立偉,
申請(qǐng)(專利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類型:發(fā)明
國別省市:開曼群島,KY
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。