• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于大數據檢索和語義分析的快搜模型訓練方法技術

    技術編號:24251650 閱讀:39 留言:0更新日期:2020-05-22 23:37
    本發明專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。本發明專利技術保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果,使得快搜模型可代替人工進行檢索信息的分析提取,從而通過快搜模型的應用,避免了檢索信息的人工分析工作,從而提高了檢索關鍵詞的提取效率,并降低了人工成本。

    A fast search model training method based on big data retrieval and semantic analysis

    【技術實現步驟摘要】
    一種基于大數據檢索和語義分析的快搜模型訓練方法
    本專利技術涉及
    ,尤其涉及一種基于大數據檢索和語義分析的快搜模型訓練方法。
    技術介紹
    隨著互聯網技術的發展,互聯網資源的豐富日新月異。如此,互聯網帶動信息傳播的同時,也由于網絡信息過于豐富,造成了信息檢索遇到了篩選難題。如何在海量的互聯網數據中精確獲得所需要的信息,是當前信息化時代不可忽視的問題。目前,信息檢索,都是通過人工提煉關鍵詞,然后根據檢索結果對關鍵詞進行修正,以達到預期的檢索效果,人工成本過高,且效率低。
    技術實現思路
    基于
    技術介紹
    存在的技術問題,本專利技術提出了一種基于大數據檢索和語義分析的快搜模型訓練方法。本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。優選的,具體包括以下步驟:S1、收集檢索信息,并對檢索信息進行人工分揀,提取檢索關鍵詞作為人工標注;S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集,并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集;S3、根據訓練子集訓練輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;S4、從修正子集中抽取一條檢索信息作為修正樣本;S5、根據快搜模型獲取修正樣本的模型標注,分別根據檢索信息對應的模型標注和人工標注進行檢索,獲取模型標注檢索結果與人工標注檢索結果的重合率;S6、判斷重合率是否大于或者等于預設的檢驗閾值;S7、是,統計修正次數;然后判斷修正次數是否達到預設的修正閾值;否,則從修正子集中重新選擇修正樣本,然后返回步驟S5;是,則輸出快搜模型;S8、否,則更新訓練子集和修正子集,并根據新的訓練子集對快搜模型進行迭代訓練,然后返回步驟S4。優選的,步驟S2中,訓練子集中包含的檢索信息數量大于或者等于100。優選的,訓練子集中包含的檢索信息數量為1000。優選的,修正子集中包含的檢索信息數量等于訓練子集中包含的檢索信息數量。優選的,循環訓練過程中,任意兩個訓練子集中的檢索信息重合率為0。優選的,步驟S7中,從修正子集中重新選擇修正樣本時,首先將原來的修正樣本從修正子集中移除,然后再從修正子集中選擇修正樣本。優選的,步驟S7中的修正閾值大于或者等于修正樣本中檢索信息數量最大值的一半。優選的,步驟S6中的檢驗閾值大于或者等于85%。本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,實現了通過快搜模塊對檢索信息進行檢索關鍵詞提取,以便根據檢索關鍵詞在互聯網資源中進行檢索。本專利技術中,通過重合率對快搜模型的驗證,保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果,使得快搜模型可代替人工進行檢索信息的分析提取,從而通過快搜模型的應用,避免了檢索信息的人工分析工作,從而提高了檢索關鍵詞的提取效率,并降低了人工成本。附圖說明圖1為本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法流程圖;圖2為本專利技術提出的另一種基于大數據檢索和語義分析的快搜模型訓練方法流程圖。具體實施方式參照圖1,本專利技術提出的一種基于大數據檢索和語義分析的快搜模型訓練方法,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。本實施方式中,實現了通過快搜模塊對檢索信息進行檢索關鍵詞提取,以便根據檢索關鍵詞在互聯網資源中進行檢索。本實施方式中,通過重合率對快搜模型的驗證,保證了快搜模型最終獲得的檢索關鍵詞無限接近檢索信息的人工提煉結果,使得快搜模型可代替人工進行檢索信息的分析提取,從而通過快搜模型的應用,避免了檢索信息的人工分析工作,從而提高了檢索關鍵詞的提取效率,并降低了人工成本。參照圖2,本實施方式中基于大數據檢索和語義分析的快搜模型訓練方法,具體包括以下步驟。S1、收集檢索信息,并對檢索信息進行人工分揀,提取檢索關鍵詞作為人工標注。即,本步驟中,收集檢索信息作為標注樣本,標注樣本由領域專家標注檢索關鍵詞。S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集,并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集。如此,通過修正子集與訓練子集的差異,有利于保證快搜模型的最優驗證效果,從而提高快搜模型的訓練精確度。S3、根據訓練子集訓練輸入為檢索信息,輸出為檢索關鍵詞的快搜模型。具體的,本實施方式中,可基于多層深度神經網絡建立快搜模型。具體的,本實施方式中,可通過多次神經網絡結合無效詞典過濾、語義提取等文本分析工具建立快搜模型。S4、從修正子集中抽取一條檢索信息作為修正樣本。S5、根據快搜模型獲取修正樣本的模型標注,分別根據檢索信息對應的模型標注和人工標注進行檢索,獲取模型標注檢索結果與人工標注檢索結果的重合率。具體的,重合率為同時存在于模型標注檢索結果和人工標注檢索結果的信息的數量與人工標注檢索結果中的信息總數量的比值。S6、判斷重合率是否大于或者等于預設的檢驗閾值。具體實施時,可設置檢驗閾值大于或者等于85%。S7、是,統計修正次數;然后判斷修正次數是否達到預設的修正閾值;否,則從修正子集中重新選擇修正樣本,然后返回步驟S5;是,則輸出快搜模型。具體的,本步驟S7中,從修正子集中重新選擇修正樣本時,首先將原來的修正樣本從修正子集中移除,然后再從修正子集中選擇修正樣本。如此,避免了修正樣本的重復利用,從而提高了對快搜模型的驗證效率和精度。本實施方式中,修正閾值大于或者等于修正樣本中檢索信息數量最大值的一半,以進一步保證對快搜模型的驗證效果。S8、否,則更新訓練子集和修正子集,并根據新的訓練子集對快搜模型進行迭代訓練,然后返回步驟S4。具體的,本步驟中,在更新訓練子集時,新的訓練子集中的任一條檢索信息均不屬于原有任意訓練子集中的檢索信息,即循環訓練過程中,任意兩個訓練子集中的檢索信息重合率為0。如此,可保證用于訓練快速模型的檢索信息的低重復率,從而保證快搜模型在訓練過程中對于人工標注的檢索信息的覆蓋率,以便提高訓練精度。本實施方式中,在訓練快搜模型時,每經過一次訓練,則根據修正子集進行迭代驗證。如此,通過修正樣本的迭代,提高了驗證精度,同時通過對修正次數的統計,實現了對于每一次訓練的快速驗證,從而進一步保證了快搜模型的訓練效率和精度。本實施的步驟S2中,訓練子集中包含的檢索信息數量大于或者等于100,具體可設置,訓練子集中包含的檢本文檔來自技高網...

    【技術保護點】
    1.一種基于大數據檢索和語義分析的快搜模型訓練方法,其特征在于,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。/n

    【技術特征摘要】
    1.一種基于大數據檢索和語義分析的快搜模型訓練方法,其特征在于,首先建立輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;根據檢索信息的人工標注的檢索關鍵詞對快搜模型進行訓練;對部分檢索信息分別獲取人工標注的檢索關鍵詞和快搜模型標注的檢索關鍵詞,再根據人工標注獲取的檢索結果與模型標注的檢索結果的重合率對快搜模型進行驗證。


    2.如權利要求1所述的基于大數據檢索和語義分析的快搜模型訓練方法,其特征在于,具體包括以下步驟:
    S1、收集檢索信息,并對檢索信息進行人工分揀,提取檢索關鍵詞作為人工標注;
    S2、隨機抽取部分檢索信息和對應的人工標注作為訓練子集,并從剩余的檢索信息中隨機抽取部分檢索信息和對應的人工標注作為修正子集;
    S3、根據訓練子集訓練輸入為檢索信息,輸出為檢索關鍵詞的快搜模型;
    S4、從修正子集中抽取一條檢索信息作為修正樣本;
    S5、根據快搜模型獲取修正樣本的模型標注,分別根據檢索信息對應的模型標注和人工標注進行檢索,獲取模型標注檢索結果與人工標注檢索結果的重合率;
    S6、判斷重合率是否大于或者等于預設的檢驗閾值;
    S7、是,統計修正次數;然后判斷修正次數是否達到預設的修正閾值;否,則從修正子集中重新選擇修正樣本,然后返回步驟S5;是,則輸出快搜模型;
    S8、否,則更新訓練子集和修正子集,并根據新的訓練子集...

    【專利技術屬性】
    技術研發人員:李穎董霞齊苗苗
    申請(專利權)人:合肥長遠知識產權管理有限公司
    類型:發明
    國別省市:安徽;34

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久久亚洲AV无码专区首JN | 无码国内精品久久人妻麻豆按摩 | 精品欧洲av无码一区二区 | 极品粉嫩嫩模大尺度无码视频| 久久亚洲AV永久无码精品| 无码精品A∨在线观看免费| 无码熟妇人妻AV在线影院| 无码国模国产在线无码精品国产自在久国产| 久久亚洲AV永久无码精品| 2024你懂的网站无码内射| 在线A级毛片无码免费真人| 国产乱人伦无无码视频试看 | 国产精品无码成人午夜电影| 无码午夜成人1000部免费视频| 无码人妻精品一区二区蜜桃网站 | 亚洲AV无码一区二区二三区入口| 亚洲国产成人精品无码区花野真一| 亚洲午夜国产精品无码 | 东京热HEYZO无码专区| 国产午夜片无码区在线播放| 亚洲私人无码综合久久网| 野花在线无码视频在线播放| 在线无码午夜福利高潮视频| 精品亚洲成在人线AV无码| 无码国产伦一区二区三区视频| 丰满日韩放荡少妇无码视频| 国产爆乳无码视频在线观看3| 6080YYY午夜理论片中无码 | 亚洲精品无码久久久久APP| 国产aⅴ激情无码久久| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 国产精品无码专区| 无码中文字幕色专区| 一区二区无码免费视频网站| 久久久久亚洲AV成人无码网站| 永久免费无码网站在线观看个| 97无码免费人妻超级碰碰碰碰| 99久久无码一区人妻a黑| 亚洲AV无码一区二区三区在线| 亚洲av无码不卡久久| 日韩亚洲AV无码一区二区不卡|