一種檢測噪音數據的方法及裝置制造方法及圖紙

技術編號：8594133 閱讀：238 留言：0更新日期：2013-04-18 07:21

本發明專利技術提供了一種檢測噪音數據的方法及裝置。所述方法包括：基于訓練數據的特征信息和實際標注信息建立預測模型；依據所述預測模型對訓練數據的實際標注信息進行預測，獲得對應的預測標注信息；提取實際標注信息與預測標注信息不一致的訓練數據，作為噪音數據。本發明專利技術可以減少人工復核的工作量，節約時間成本和人力成本。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及數據處理領域，特別是涉及一種檢測噪音數據的方法，以及一種檢測噪音數據的裝置。
技術介紹
統計機器學習是利用訓練數據，通過計算得到模型，也即是訓練模型的一種方法，然后用模型去做預測。本質上是通過已知的數據，經過統計分析和計算，產生模型，去預測未知的情況。類似統計機器學習的方法需要有較多的準確的訓練數據，利用這些訓練數據對模型進行建模，為了保證效果，訓練數據是人工標注的。由于人工標注的不準確，使得訓練數據容易產生部分不準確或是與實際不一致的數據，即噪音數據，從而影響數據的使用，所以需要去除訓練數據中的噪音。現有技術中，采用人工復核去除訓練數據中的噪音，對訓練數據進行多次人工標注，從而訂正可能的錯誤和偏差，去除訓練數據中的噪音數據。以上現有技術中存在的問題是，由于一般情況下訓練數據較多，人工復核時要針對所有的訓練數據一條條進行復核，時間較長，人工成本太大。因此，目前需要本領域技術人員解決的一個技術問題就是，提供一種檢測噪音數據的方法，以減少人工復核的工作量，節約時間成本和人力成本。
技術實現思路
本申請所要解決的技術問題是提供一種檢測噪音數據的方法，用以減少人工復核的工作量，節約時間成本和人力成本。本申請還提供了一種檢測噪音數據的裝置，用以保證上述方法在實際中的應用及實現。為了解決上述問題，本申請公開了一種檢測噪音數據的方法，包括基于訓練數據的特征信息和實際標注信息建立預測模型；依據所述預測模型對訓練數據的實際標注信息進行預測，獲得對應的預測標注信息；提取實際標注信息與預測標注信息不一致的訓練數據，作為噪音數據。優選地，所述訓練數據包括所有待檢測的訓練數...

【技術保護點】
一種檢測噪音數據的方法，其特征在于，包括：基于訓練數據的特征信息和實際標注信息建立預測模型；依據所述預測模型對訓練數據的實際標注信息進行預測，獲得對應的預測標注信息；提取實際標注信息與預測標注信息不一致的訓練數據，作為噪音數據。

【技術特征摘要】
1.一種檢測噪音數據的方法，其特征在于，包括基于訓練數據的特征信息和實際標注信息建立預測模型；依據所述預測模型對訓練數據的實際標注信息進行預測，獲得對應的預測標注信息；提取實際標注信息與預測標注信息不一致的訓練數據，作為噪音數據。2.如權利要求1所述的方法，其特征在于，所述訓練數據包括所有待檢測的訓練數據。3.如權利要求1所述的方法，其特征在于，所述訓練數據不包括所有待檢測的訓練數據，在基于訓練數據的特征信息和實際標注信息建立預測模型的步驟之前，還包括將待檢測的訓練數據劃分為N份，其中，N為大于I的正整數。4.如權利要求3所述的方法，其特征在于，所述基于訓練數據的特征信息和實際標注信息建立預測模型的步驟為，依次提取N份中的N-1份待檢測的訓練數據，并基于所述N-1份待檢測的訓練數據的特征信息和實際標注信息建立預測模型；所述依據預測模型對訓練數據的實際標注信息進行預測，獲得對應的預測標注信息的步驟為分別依據所述預測模型對剩余的一份待檢測的訓練數據的實際標注信息進行預測，獲得對應的預測標注信息，所述預測標注信息包括N份待檢測的訓練數據所對應的預測標注信息。5.如權利要求2或3或4所述的方法，其...

【專利技術屬性】
技術研發人員：陳維，侯磊，
申請(專利權)人：阿里巴巴集團控股有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

噪音檢測方法技術

數據噪音技術

家庭噪音檢測技術