本發明專利技術提供了一種檢測噪音數據的方法及裝置。所述方法包括:基于訓練數據的特征信息和實際標注信息建立預測模型;依據所述預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息;提取實際標注信息與預測標注信息不一致的訓練數據,作為噪音數據。本發明專利技術可以減少人工復核的工作量,節約時間成本和人力成本。
【技術實現步驟摘要】
本申請涉及數據處理領域,特別是涉及一種檢測噪音數據的方法,以及一種檢測噪音數據的裝置。
技術介紹
統計機器學習是利用訓練數據,通過計算得到模型,也即是訓練模型的一種方法,然后用模型去做預測。本質上是通過已知的數據,經過統計分析和計算,產生模型,去預測未知的情況。類似統計機器學習的方法需要有較多的準確的訓練數據,利用這些訓練數據對模型進行建模,為了保證效果,訓練數據是人工標注的。由于人工標注的不準確,使得訓練數據容易產生部分不準確或是與實際不一致的數據,即噪音數據,從而影響數據的使用,所以需要去除訓練數據中的噪音。現有技術中,采用人工復核去除訓練數據中的噪音,對訓練數據進行多次人工標注,從而訂正可能的錯誤和偏差,去除訓練數據中的噪音數據。以上現有技術中存在的問題是,由于一般情況下訓練數據較多,人工復核時要針對所有的訓練數據一條條進行復核,時間較長,人工成本太大。因此,目前需要本領域技術人員解決的一個技術問題就是,提供一種檢測噪音數據的方法,以減少人工復核的工作量,節約時間成本和人力成本。
技術實現思路
本申請所要解決的技術問題是提供一種檢測噪音數據的方法,用以減少人工復核的工作量,節約時間成本和人力成本。本申請還提供了一種檢測噪音數據的裝置,用以保證上述方法在實際中的應用及實現。為了解決上述問題,本申請公開了一種檢測噪音數據的方法,包括基于訓練數據的特征信息和實際標注信息建立預測模型;依據所述預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息;提取實際標注信息與預測標注信息不一致的訓練數據,作為噪音數據。優選地,所述訓練數據包括所有待檢測的訓練數據。優選地,所述訓練數據不包括所有待檢測的訓練數據,在基于訓練數據的特征信息和實際標注信息建立預測模型的步驟之前,還包括將待檢測的訓練數據劃分為N份,其中,N為大于I的正整數。優選地,所述基于訓練數據的特征信息和實際標注信息建立預測模型的步驟為,依次提取N份中的N-1份待檢測的訓練數據,并基于所述N-1份待檢測的訓練數據的特征信息和實際標注信息建立預測模型;所述依據預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息的步驟為分別依據所述預測模型對剩余的一份待檢測的訓練數據的實際標注信息進行預測,獲得對應的預測標注信息,所述預測標注信息包括N份待檢測的訓練數據所對應的預測標注信息。優選地,所述預測模型包括通過對各個訓練數據的特征信息和標注信息進行統計后,獲取的不同特征信息對應的各種標注信息的統計值。優選地,所述依據預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息的步驟包括由預測模型所包含的不同特征信息對應的各種標注信息的統計值,以及訓練數據的特征信息,對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息。優選地,所述方法還包括對所述噪音數據進行復核。本申請還提供了一種檢測噪音數據的裝置,包括預測模型建立模塊,用于基于訓練數據的特征信息和實際標注信息建立預測模型;預測模塊,用于依據所述預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息;噪音數據提取模塊,用于提取實際標注信息與預測標注信息不一致的訓練數據,作為噪音數據。優選地,所述訓練數據包括所有待檢測的訓練數據。優選地,所述訓練數據不包括所有待檢測的訓練數據,在預測模型建立模塊之前,還包括訓練數據劃分模塊,用于將待檢測訓練數據劃分為N份,其中,N為大于I的正整數。與現有技術相比,本申請具有以下優點本申請依據訓練數據建立的預測模型對訓練數據的標注信息進行預測,將預測標注信息與原標注信息不一致的訓練數據,作為噪音數據。依據本申請的方法可以直接對噪音數據進行復核,以達到去除噪音數據的目的。相比于現有技術對所有的訓練數據進行復核以去除噪音數據的方式,本申請大大減少了復核的工作量,節約了時間成本和人力成本。附圖說明圖1是本申請的一種檢測噪音數據的方法實施例1的流程圖;圖2是本申請的一種檢測噪音數據的方法實施例2的流程圖;圖3是本申請的一種檢測噪音數據的裝置實施例1的結構框圖;圖4是本申請的一種檢測噪音數據的裝置實施例2的結構框圖。具體實施例方式為使本申請的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。現有技術中,為了去除噪音數據需要對所有的訓練數據進行復核,由于噪音數據一般較多,復核全部訓練數據的工作量太大,時間較長,人工成本太大。本申請的核心構思之一在于,依據訓練數據建立的預測模型對訓練數據的標注信息進行預測,將預測標注信息與原標注信息不一致的訓練數據,作為噪音數據,從而大大減少了復核的工作量,節約了時間成本和人力成本。參考圖1,其示出了本申請的一種檢測噪音數據的方法實施例1的流程圖,具體可以包括以下步驟步驟101、基于訓練數據的特征信息和實際標注信息建立預測模型。訓練數據是依據人工標注獲得,其中包含了標注信息,對應的特征信息可以由程序提取,也可以由人工標注獲得,例如對某人A進行標注,獲得了訓練數據,其中標注信息為“好人”,然后提取其特征信息,如年齡大于20歲,年收入大于10萬,本科學歷等。在本實施例中,所述訓練數據包括所有待檢測的訓練數據。所述預測模型可以包括通過對各個訓練數據的特征信息和標注信息進行統計后,獲取的不同特征信息對應的各種標注信息的統計值。訓練數據表明了不同的對象,具備不同的特征信息和不同的標注信息,預測模型是描述不同的特征信息下,各標注信息存在的統計值的一個模型。因此,需要對所有的訓練數據所包含的特征信息和標注信息進行統計。所述統計值可以表示為對應不同的特征信息,各種標注信息存在的概率值,發生的頻次或頻率等,在具體的實現中,統計值可以依據實際情況采用不同的方式表示,本申請對此并不做限制。例如,依據A、B、C、D、E和F的訓練數據建立一個分類模型,以區分好人和壞人,訓練數據的標注信息已經告知了 A、B是好人,C、D、E和F是壞人,這時,可以抽取這六個人的特征信息來統計其對標注結果的影響。比如A、B和F的年收入大于10萬,年齡小于25歲,C、D和E的年收入小于10萬,年齡大于25歲,以概率值表示統計值,得知在這個訓練數據下統計出來的模型,對于年收入大于10萬,年齡小于25歲的人是好人的概率是2/3+1/3 X 2/3=8/9,或者說是1-1/3 X 1/3 = 8/9,有1/9的概率是壞人。步驟102、依據所述預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息。在本申請的一種優選的實施例中,所述步驟102可以包括子步驟S11、根據預測模型所包含的不同特征信息對應的各種標注信息的統計值,以及訓練數據的特征信息,對訓練數據的實際標注信息進行預測,獲得對應的預測標注信肩、O預測模型包括了不同的特征信息所對應的不同的標注信息的統計值,因此,在對預測數據進行預測的時候,可以根據預測模型中的統計值和訓練數據的特征信息,得知訓練數據在此預測模型下應該具有的標注信息。例如,以上例中A、B、C、D、E和F的訓練數據建立的預測模型對A、B、C、D、E和F進行預測,由于在這個模型下,年收入大于10萬,年齡小于25歲的人是好人的概率是8/9,假設一般情況下下,好人的概率超過了 50%就認為這個人是好人,本文檔來自技高網...
【技術保護點】
一種檢測噪音數據的方法,其特征在于,包括:基于訓練數據的特征信息和實際標注信息建立預測模型;依據所述預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息;提取實際標注信息與預測標注信息不一致的訓練數據,作為噪音數據。
【技術特征摘要】
1.一種檢測噪音數據的方法,其特征在于,包括 基于訓練數據的特征信息和實際標注信息建立預測模型; 依據所述預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息; 提取實際標注信息與預測標注信息不一致的訓練數據,作為噪音數據。2.如權利要求1所述的方法,其特征在于,所述訓練數據包括所有待檢測的訓練數據。3.如權利要求1所述的方法,其特征在于,所述訓練數據不包括所有待檢測的訓練數據,在基于訓練數據的特征信息和實際標注信息建立預測模型的步驟之前,還包括 將待檢測的訓練數據劃分為N份,其中,N為大于I的正整數。4.如權利要求3所述的方法,其特征在于,所述基于訓練數據的特征信息和實際標注信息建立預測模型的步驟為,依次提取N份中的N-1份待檢測的訓練數據,并基于所述N-1份待檢測的訓練數據的特征信息和實際標注信息建立預測模型; 所述依據預測模型對訓練數據的實際標注信息進行預測,獲得對應的預測標注信息的步驟為 分別依據所述預測模型對剩余的一份待檢測的訓練數據的實際標注信息進行預測,獲得對應的預測標注信息,所述預測標注信息包括N份待檢測的訓練數據所對應的預測標注信息。5.如權利要求2或3或4所述的方法,其...
【專利技術屬性】
技術研發人員:陳維,侯磊,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。