• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    生成應用類別標簽的方法及裝置制造方法及圖紙

    技術編號:15690872 閱讀:70 留言:0更新日期:2017-06-24 03:37
    本發明專利技術實施例公開了一種生成應用類別標簽的方法,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息;獲取第一應用數據源或第二應用數據源的應用信息;將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。上述方法為目標應用生成的類型標簽可使得在查找應用時的結果更加準確。

    Method and device for generating application category label

    The embodiment of the invention discloses a method for creating application category labels: obtaining a first application data source first category information, obtain second application data source second categories of information, will be the integration of the first category information and the second categories of information into third categories of information; application of information acquisition application data source or the first second the application of the data source; the application description information and the third categories of information in the category labels to match the sample application for labeling of the third categories of information in the category label; according to the corresponding eigenvectors corresponding to the sample application identifier of the application of information extraction, according to the feature vectors of training classifier labels the sample application identifies and corresponding; according to the training of the classifier for target labeling of the third categories of applications Class labels in information. The type labels generated by the above method for target applications can make the results more accurate in finding applications.

    【技術實現步驟摘要】
    生成應用類別標簽的方法及裝置
    本專利技術涉及互聯網
    ,尤其涉及一種生成應用類別標簽的方法及裝置。
    技術介紹
    應用平臺上為了方便用戶瀏覽和下載應用,通常為應用平臺上的每個注冊的應用設置類型標簽。而在傳統技術中,應用平臺上為了規范發布的應用的類型,通常自定義了一套應用類型分類樹,在應用平臺上注冊的應用必須選擇應用類型分類樹定義的類型標簽作為該應用的標簽。而應用的類型往往五花八門,應用平臺上定義的應用類型分類樹并不能很好地體現應用的不同,往往屬于同一類別標簽的應用其實類型并不一樣。在傳統技術的另一種實現方式中,應用平臺將為應用設置標簽的權利下放給了在應用平臺上注冊應用的第三方開發者,由第三方開發者在注冊時,自行填寫注冊的應用的類別標簽,這就使得同一類型的應用可能由于開發者表述方式的不同而貼上了不同的類別標簽。綜合上述兩種生成應用類別標簽的方式可看出,傳統技術中的應用的類別標簽,要么太單一,不能體現不同應用的細微差別要么管理混亂,相同的應用對應不同的類別標簽,使得標簽失去了甄別的意義。因此,用戶再根據標簽查找時,或者應用平臺在根據應用的類別標簽選擇應用推薦時,無法準確地查找到最適配的應用,因此,傳統技術中生成應用類別標簽的方式造成了查找應用不準確的問題。
    技術實現思路
    基于此,為解決傳統技術中平臺預設類別標簽和發布者自選類別標簽的方式所帶來的,類別標簽與應用匹配度不足,而導致的后續根據類別標簽查找應用不準確的技術問題,特提供了一種生成應用類別標簽的方法。一種生成應用類別標簽的方法,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應用數據源包括本地應用平臺的數據源,所述第二應用數據源包括第三方應用平臺的數據源;獲取第一應用數據源或第二應用數據源的應用信息,所述應用信息中包含有樣本應用標識和對應的應用描述信息;將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。在其中一個實施例中,所述將所述第一類別信息和所述第二類別信息整合成第三類別信息的步驟之后還包括:獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應的所述第三類別信息中的類別標簽的映射關系;所述將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配的步驟還包括:查找與所述應用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應的類別標簽作為所述應用描述信息對應的樣本應用標識的類別標簽。在其中一個實施例中,所述根據所述應用信息提取相應的樣本應用標識對應的特征向量的步驟包括:根據所述應用信息提取相應的樣本應用標識對應的應用屬性向量、用戶群組屬性向量、關鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。在其中一個實施例中,所述根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器的步驟包括:獲取所述第三類別信息中類別標簽的個數,根據所述類別標簽的個數生成對應數量的分類器。在其中一個實施例中,所述根據所述類別標簽的個數生成對應數量的分類器的步驟還包括:將根據所述類別標簽的個數生成對應第一數量的分類器作為主分類器;對于每個主分類器,根據所述樣本應用標識的類別標簽和對應的特征向量獲取每個主分類器對應的正樣本數和負樣本數的比例;根據所述每個主分類器對應的正樣本數和負樣本數的比例生成對應第二數量的與該主分類器對應子分類器;結合隨機重采樣和隨機欠采樣訓練所述第二數量的子分類器。此外,為解決傳統技術中平臺預設類別標簽和發布者自選類別標簽的方式所帶來的,類別標簽與應用匹配度不足,而導致的后續根據類別標簽查找應用不準確的技術問題,特提供了一種生成應用類別標簽的裝置。一種生成應用類別標簽的裝置,包括:類別信息構建模塊,用于獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應用數據源包括本地應用平臺的數據源,所述第二應用數據源包括第三方應用平臺的數據源;樣本應用獲取模塊,用于獲取第一應用數據源或第二應用數據源的應用信息,所述應用信息中包含有樣本應用標識和對應的應用描述信息;樣本應用標注模塊,用于將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;分類器訓練模塊,用于根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;目標應用標注模塊,用于根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。在其中一個實施例中,所述類別信息構建模塊還用于獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應的所述第三類別信息中的類別標簽的映射關系;所述樣本應用標注模塊還用于查找與所述應用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應的類別標簽作為所述應用描述信息對應的樣本應用標識的類別標簽。在其中一個實施例中,所述分類器訓練模塊還用于根據所述應用信息提取相應的樣本應用標識對應的應用屬性向量、用戶群組屬性向量、關鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。在其中一個實施例中,所述分類器訓練模塊還用于獲取所述第三類別信息中類別標簽的個數,根據所述類別標簽的個數生成對應數量的分類器。在其中一個實施例中,所述分類器訓練模塊還用于將根據所述類別標簽的個數生成對應第一數量的分類器作為主分類器;對于每個主分類器,根據所述樣本應用標識的類別標簽和對應的特征向量獲取每個主分類器對應的正樣本數和負樣本數的比例;根據所述每個主分類器對應的正樣本數和負樣本數的比例生成對應第二數量的與該主分類器對應子分類器;結合隨機重采樣和隨機欠采樣訓練所述第二數量的子分類器。實施本專利技術實施例,將具有如下有益效果:采用了上述生成應用類別標簽的方法和裝置之后,應用平臺的類別信息得到了擴展,不僅包含了執行本方法的本地應用平臺的開發人員預先定義的類別信息,還整合了由第三方應用平臺的應用信息數據源抓取的其他應用平臺、搜索記錄、其他應用信息發布網站上對應用的類別信息的描述,使得構建的應用平臺的類別信息更加全面。并且,先采集樣本應用,并對樣本應用進行類型標簽的樣本標注,然后將樣本應用的特征向量輸入的分類器中進行機器學習訓練,然后由訓練好的分類器對目標應用進行自動地分類,自動為目標應用標注在擴展后的類別信息下的類型標簽,使得為應用平臺上的目標應用標注類型標簽的操作可自動化完成,且使得為目標應用添加的類型標簽與目標應用更加匹配,從而在根據類別標簽查找應用時,查找結果更加準確。附圖說明為了更清楚地說明本專利技術實施例或現本文檔來自技高網...
    生成應用類別標簽的方法及裝置

    【技術保護點】
    一種生成應用類別標簽的方法,其特征在于,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應用數據源包括本地應用平臺的數據源,所述第二應用數據源包括第三方應用平臺的數據源;獲取第一應用數據源或第二應用數據源的應用信息,所述應用信息中包含有樣本應用標識和對應的應用描述信息;將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。

    【技術特征摘要】
    1.一種生成應用類別標簽的方法,其特征在于,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應用數據源包括本地應用平臺的數據源,所述第二應用數據源包括第三方應用平臺的數據源;獲取第一應用數據源或第二應用數據源的應用信息,所述應用信息中包含有樣本應用標識和對應的應用描述信息;將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。2.根據權利要求1所述的生成應用類別標簽的方法,其特征在于,所述將所述第一類別信息和所述第二類別信息整合成第三類別信息的步驟之后還包括:獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應的所述第三類別信息中的類別標簽的映射關系;所述將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配的步驟還包括:查找與所述應用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應的類別標簽作為所述應用描述信息對應的樣本應用標識的類別標簽。3.根據權利要求1所述的生成應用類別標簽的方法,其特征在于,所述根據所述應用信息提取相應的樣本應用標識對應的特征向量的步驟包括:根據所述應用信息提取相應的樣本應用標識對應的應用屬性向量、用戶群組屬性向量、關鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。4.根據權利要求1所述的生成應用類別標簽的方法,其特征在于,所述根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器的步驟包括:獲取所述第三類別信息中類別標簽的個數,根據所述類別標簽的個數生成對應數量的分類器。5.根據權利要求4所述的生成應用類別標簽的方法,其特征在于,所述根據所述類別標簽的個數生成對應數量的分類器的步驟還包括:將根據所述類別標簽的個數生成對應第一數量的分類器作為主分類器;對于每個主分類器,根據所述樣本應用標識的類別標簽和對應的特征向量獲取每個主分類器對應的正樣本數和負樣本數的比例;根據所述每個主分類器對應的正樣本數和負樣本數的比例生成對應第二數量的與該主分類器對應子分...

    【專利技術屬性】
    技術研發人員:曹訓,黃澤謙,卓居超,
    申請(專利權)人:騰訊科技深圳有限公司
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码乱码在线观看| 日韩AV无码一区二区三区不卡| 亚洲V无码一区二区三区四区观看| 中文字幕无码久久久| 精品无码av一区二区三区| 日韩加勒比一本无码精品| 久久久久久久无码高潮| 黑人巨大无码中文字幕无码| 国产亚洲大尺度无码无码专线| 无码熟妇人妻AV在线影院| 亚洲av无码国产精品夜色午夜| 成人无码嫩草影院| 99精品一区二区三区无码吞精| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 一本一道中文字幕无码东京热| 亚洲av中文无码乱人伦在线咪咕 | 少妇无码AV无码专区线| 国99精品无码一区二区三区| 国产精品成人99一区无码| 亚洲heyzo专区无码综合| 亚洲av无码专区在线| 亚洲AV永久无码精品一百度影院| 国产精品国产免费无码专区不卡| 无码一区二区三区AV免费| 久久水蜜桃亚洲av无码精品麻豆| 一本加勒比hezyo无码专区 | 久久久久久国产精品免费无码| 亚洲中文字幕无码爆乳av中文| 国产精品无码久久四虎| 久久久久久久久无码精品亚洲日韩| 无码H黄肉动漫在线观看网站| 精品亚洲成在人线AV无码| 人妻丰满熟妞av无码区 | 亚洲爆乳精品无码一区二区| 精品亚洲AV无码一区二区| 无码夫の前で人妻を犯す中字| 无码国内精品久久综合88| 一本大道在线无码一区| 亚洲最大天堂无码精品区| 亚洲av永久无码| 国产成人无码A区精油按摩|