• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于自學習的標簽規則產生方法及裝置制造方法及圖紙

    技術編號:36692883 閱讀:26 留言:0更新日期:2023-02-27 20:02
    本申請關于一種基于自學習的標簽規則產生方法及裝置。具體方案為:通過響應于接收到目標數據,對目標數據進行特征提取,以得到特征數據;確定特征數據的所屬類型;將特征數據和特征數據的所屬類型輸入至預訓練的預測器中;獲取預測器輸出的標簽規則;基于標簽規則對特征數據進行打標簽。本申請提升了數據標簽化的工作效率和精準度。化的工作效率和精準度。化的工作效率和精準度。

    【技術實現步驟摘要】
    一種基于自學習的標簽規則產生方法及裝置


    [0001]本申請涉及計算機
    ,尤其涉及一種基于自學習的標簽規則產生方法及裝置。

    技術介紹

    [0002]相關技術中,標簽作為一種靈活的數據組織方式,是具有業務屬性的,通過特征集合并關聯打標簽的對象,對分析對象生成畫像,挖掘對象的價值。打標簽的過程,也就是生產標簽的過程,包括:明確打標簽的對象;明確標簽的用途;明確標簽規則;明確標簽的名稱。這個過程中最復雜的也是難度比較高就是明確標簽規則的過程,目前標簽的規則都是基于人工根據經驗總結進行規則的整理。有些標簽的邏輯是不斷的發生改變的,對于已經整理好的規則,難以及時的根據標簽邏輯的改變及時進行調整。

    技術實現思路

    [0003]為此,本申請提供一種基于自學習的標簽規則產生方法及裝置。本申請的技術方案如下:
    [0004]根據本申請實施例的第一方面,提供一種基于自學習的標簽規則產生方法,所述方法包括:
    [0005]響應于接收到目標數據,對所述目標數據進行特征提取,以得到特征數據;
    [0006]確定所述特征數據的所屬類型;
    [0007]將所述特征數據和所述特征數據的所屬類型輸入至預訓練的預測器中;
    [0008]獲取所述預測器輸出的標簽規則;所述預測器是基于標簽規則索引數據進行訓練得到的;所述標簽規則索引數據用于存儲特征數據、數據類型與標簽規則之間的對應關系;
    [0009]基于所述標簽規則對所述特征數據進行打標簽。
    [0010]根據本申請的一個實施例,所述預測器通過以下步驟進行訓練:
    [0011]采用小樣本學習算法,基于所述標簽規則索引數據對待訓練的神經網絡模型進行訓練;
    [0012]將訓練好的所述神經網絡模型確定為所述預測器。
    [0013]根據本申請的一個實施例,所述預測器還通過以下步驟進行訓練:
    [0014]獲取標簽規則樣本數據;其中,所述標簽規則樣本數據包括目標樣本數據和所述目標樣本數據對應的第一標簽值;
    [0015]對所述目標樣本數據進行特征提取,以得到特征樣本數據;
    [0016]確定所述特征樣本數據的所屬類型;
    [0017]將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器;
    [0018]獲取所述預測器基于所述特征樣本數據和所述特征樣本數據的所屬類型預測出的標簽規則;
    [0019]根據所述預測出的標簽規則,確定第二標簽值;
    [0020]將所述第一標簽值與所述第二標簽值進行比對,得到比對結果;
    [0021]響應于所述比對結果為所述第一標簽值區別于所述第二標簽值,對所述預測器進行調參,重復執行所述將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器的步驟。
    [0022]根據本申請的一個實施例,所述標簽規則樣本數據有多個;在所述獲取標簽規則樣本數據之后,還包括:
    [0023]對所述多個標簽規則樣本數據進行語義相似性計算,得到計算結果;
    [0024]基于所述計算結果,對所述多個標簽規則樣本數據進行聚類處理,以得聚類后的標簽規則數據。
    [0025]根據本申請的一個實施例,在所述將所述第一標簽值與所述第二標簽值進行比對,得到比對結果之后,還包括:
    [0026]響應于所述比對結果為所述第一標簽值與所述第二標簽值相同,確定所述標簽規則索引數據中是否存儲有所述預測出的標簽規則;
    [0027]響應于所述標簽規則索引數據中未存儲有所述預測出的標簽規則,將所述預測出的標簽規則存入所述標簽規則索引數據中。
    [0028]根據本申請實施例的第二方面,提供一種基于自學習的標簽規則產生裝置,所述裝置包括:
    [0029]特征提取模塊,用于響應于接收到目標數據,對所述目標數據進行特征提取,以得到特征數據;
    [0030]確定模塊,用于確定所述特征數據的所屬類型;
    [0031]輸入模塊,用于將所述特征數據和所述特征數據的所屬類型輸入至預訓練的預測器中;
    [0032]獲取模塊,用于獲取所述預測器輸出的標簽規則;所述預測器是基于標簽規則索引數據進行訓練得到的;所述標簽規則索引數據用于存儲特征數據、數據類型與標簽規則之間的對應關系;
    [0033]打標簽模塊,用于基于所述標簽規則對所述特征數據進行打標簽。
    [0034]根據本申請的一個實施例,還包括訓練模塊,所述訓練模塊用于:
    [0035]采用小樣本學習算法,基于所述標簽規則索引數據對待訓練的神經網絡模型進行訓練;
    [0036]將訓練好的所述神經網絡模型確定為所述預測器。
    [0037]根據本申請的一個實施例,所述訓練模塊還用于:
    [0038]獲取標簽規則樣本數據;其中,所述標簽規則樣本數據包括目標樣本數據和所述目標樣本數據對應的第一標簽值;
    [0039]對所述目標樣本數據進行特征提取,以得到特征樣本數據;
    [0040]確定所述特征樣本數據的所屬類型;
    [0041]將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器;
    [0042]獲取所述預測器基于所述特征樣本數據和所述特征樣本數據的所屬類型預測出的標簽規則;
    [0043]根據所述預測出的標簽規則,確定第二標簽值;
    [0044]將所述第一標簽值與所述第二標簽值進行比對,得到比對結果;
    [0045]響應于所述比對結果為所述第一標簽值區別于所述第二標簽值,對所述預測器進行調參,重復執行所述將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器的步驟。
    [0046]根據本申請的一個實施例,所述標簽規則樣本數據有多個;所述訓練模塊還用于:
    [0047]對所述多個標簽規則樣本數據進行語義相似性計算,得到計算結果;
    [0048]基于所述計算結果,對所述多個標簽規則樣本數據進行聚類處理,以得聚類后的標簽規則數據。
    [0049]根據本申請的一個實施例,所述訓練模塊還用于:
    [0050]響應于所述比對結果為所述第一標簽值與所述第二標簽值相同,確定所述標簽規則索引數據中是否存儲有所述預測出的標簽規則;
    [0051]響應于所述標簽規則索引數據中未存儲有所述預測出的標簽規則,將所述預測出的標簽規則存入所述標簽規則索引數據中。
    [0052]本申請的實施例提供的技術方案至少帶來以下有益效果:
    [0053]通過響應于接收到目標數據,對目標數據進行特征提取,以得到特征數據;確定特征數據的所屬類型;將特征數據和特征數據的所屬類型輸入至預訓練的預測器中;獲取預測器輸出的標簽規則;基于標簽規則對特征數據進行打標簽。從而使標簽規則的產生不再強依賴于人工,自動生成相應的標簽規則,基于自學習技術的標簽規則產生引擎,自動匹配字段的標簽打標規則,快速完成標簽的打標工作,提高標簽規則的準確度和專業性,提升數據標簽化的工作效率和精準度
    [0054]應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于自學習的標簽規則產生方法,其特征在于,所述方法包括:響應于接收到目標數據,對所述目標數據進行特征提取,以得到特征數據;確定所述特征數據的所屬類型;將所述特征數據和所述特征數據的所屬類型輸入至預訓練的預測器中;獲取所述預測器輸出的標簽規則;所述預測器是基于標簽規則索引數據進行訓練得到的;所述標簽規則索引數據用于存儲特征數據、數據類型與標簽規則之間的對應關系;基于所述標簽規則對所述特征數據進行打標簽。2.根據權利要求1所述的方法,其特征在于,所述預測器通過以下步驟進行訓練:采用小樣本學習算法,基于所述標簽規則索引數據對待訓練的神經網絡模型進行訓練;將訓練好的所述神經網絡模型確定為所述預測器。3.根據權利要求2所述的方法,其特征在于,所述預測器還通過以下步驟進行訓練:獲取標簽規則樣本數據;其中,所述標簽規則樣本數據包括目標樣本數據和所述目標樣本數據對應的第一標簽值;對所述目標樣本數據進行特征提取,以得到特征樣本數據;確定所述特征樣本數據的所屬類型;將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器;獲取所述預測器基于所述特征樣本數據和所述特征樣本數據的所屬類型預測出的標簽規則;根據所述預測出的標簽規則,確定第二標簽值;將所述第一標簽值與所述第二標簽值進行比對,得到比對結果;響應于所述比對結果為所述第一標簽值區別于所述第二標簽值,對所述預測器進行調參,重復執行所述將所述特征樣本數據和所述特征樣本數據的所屬類型輸入至所述預測器的步驟。4.根據權利要求3所述的方法,其特征在于,所述標簽規則樣本數據有多個;在所述獲取標簽規則樣本數據之后,還包括:對所述多個標簽規則樣本數據進行語義相似性計算,得到計算結果;基于所述計算結果,對所述多個標簽規則樣本數據進行聚類處理,以得聚類后的標簽規則數據。5.根據權利要求3所述的方法,其特征在于,在所述將所述第一標簽值與所述第二標簽值進行比對,得到比對結果之后,還包括:響應于所述比對結果為所述第一標簽值與所述第二標簽值相同,確定所述標簽規則索引數據中是否存儲有所述預測出的標簽規則;響應于所述標簽規則索引數據中未存儲有所述預測出的標簽規則,將所述預測出的標簽規則存入所述標簽規則索引數據中。6.一種基...

    【專利技術屬性】
    技術研發人員:張晰高嵩章敏李寶東劉韶輝穆顯顯金一明蔡姍姍趙敏
    申請(專利權)人:太極計算機股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 午夜人性色福利无码视频在线观看| 精品欧洲AV无码一区二区男男| 亚洲国产超清无码专区| 国产成人无码免费网站| 国产精品无码一区二区三区免费| 国产成人无码a区在线视频| 精品无码成人片一区二区98| 亚洲精品无码你懂的网站| 白嫩少妇激情无码| 中文字幕在线无码一区二区三区| 亚洲AV综合色区无码一二三区| 亚洲国产精品成人精品无码区| 色综合热无码热国产| 日韩爆乳一区二区无码| 亚洲国产精品无码专区影院 | 日韩精品无码一区二区三区| 国产成人无码网站| 亚洲一本到无码av中文字幕| 亚洲AV无码久久| 无码人妻精品一区二区三区66| 亚洲乱亚洲乱少妇无码| 国产强被迫伦姧在线观看无码| 伊人久久精品无码麻豆一区| 无码人妻一区二区三区一| 无码人妻精品一区二区| 欧洲精品久久久av无码电影 | 无码国产成人午夜电影在线观看| 久久亚洲AV无码精品色午夜| 无码人妻精品一区二区三区夜夜嗨| 人妻中文无码久热丝袜| 国产在线观看无码免费视频| 亚洲AV蜜桃永久无码精品| 国产精品久久无码一区二区三区网| 亚洲av无码日韩av无码网站冲| 免费无码一区二区三区| 中文无码精品A∨在线观看不卡| 亚洲日韩乱码中文无码蜜桃 | 亚洲精品无码你懂的网站| 亚洲精品无码专区久久同性男| 国产免费久久久久久无码| 精品久久久久久无码中文字幕|