The embodiment of the invention discloses a method for creating application category labels: obtaining a first application data source first category information, obtain second application data source second categories of information, will be the integration of the first category information and the second categories of information into third categories of information; application of information acquisition application data source or the first second the application of the data source; the application description information and the third categories of information in the category labels to match the sample application for labeling of the third categories of information in the category label; according to the corresponding eigenvectors corresponding to the sample application identifier of the application of information extraction, according to the feature vectors of training classifier labels the sample application identifies and corresponding; according to the training of the classifier for target labeling of the third categories of applications Class labels in information. The type labels generated by the above method for target applications can make the results more accurate in finding applications.
【技術實現步驟摘要】
生成應用類別標簽的方法及裝置
本專利技術涉及互聯網
,尤其涉及一種生成應用類別標簽的方法及裝置。
技術介紹
應用平臺上為了方便用戶瀏覽和下載應用,通常為應用平臺上的每個注冊的應用設置類型標簽。而在傳統技術中,應用平臺上為了規范發布的應用的類型,通常自定義了一套應用類型分類樹,在應用平臺上注冊的應用必須選擇應用類型分類樹定義的類型標簽作為該應用的標簽。而應用的類型往往五花八門,應用平臺上定義的應用類型分類樹并不能很好地體現應用的不同,往往屬于同一類別標簽的應用其實類型并不一樣。在傳統技術的另一種實現方式中,應用平臺將為應用設置標簽的權利下放給了在應用平臺上注冊應用的第三方開發者,由第三方開發者在注冊時,自行填寫注冊的應用的類別標簽,這就使得同一類型的應用可能由于開發者表述方式的不同而貼上了不同的類別標簽。綜合上述兩種生成應用類別標簽的方式可看出,傳統技術中的應用的類別標簽,要么太單一,不能體現不同應用的細微差別要么管理混亂,相同的應用對應不同的類別標簽,使得標簽失去了甄別的意義。因此,用戶再根據標簽查找時,或者應用平臺在根據應用的類別標簽選擇應用推薦時,無法準確地查找到最適配的應用,因此,傳統技術中生成應用類別標簽的方式造成了查找應用不準確的問題。
技術實現思路
基于此,為解決傳統技術中平臺預設類別標簽和發布者自選類別標簽的方式所帶來的,類別標簽與應用匹配度不足,而導致的后續根據類別標簽查找應用不準確的技術問題,特提供了一種生成應用類別標簽的方法。一種生成應用類別標簽的方法,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第 ...
【技術保護點】
一種生成應用類別標簽的方法,其特征在于,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應用數據源包括本地應用平臺的數據源,所述第二應用數據源包括第三方應用平臺的數據源;獲取第一應用數據源或第二應用數據源的應用信息,所述應用信息中包含有樣本應用標識和對應的應用描述信息;將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。
【技術特征摘要】
1.一種生成應用類別標簽的方法,其特征在于,包括:獲取第一應用數據源的第一類別信息,獲取第二應用數據源的第二類別信息,將所述第一類別信息和所述第二類別信息整合成第三類別信息,所述第三類別信息包括類別標簽,所述第一應用數據源包括本地應用平臺的數據源,所述第二應用數據源包括第三方應用平臺的數據源;獲取第一應用數據源或第二應用數據源的應用信息,所述應用信息中包含有樣本應用標識和對應的應用描述信息;將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配,為所述樣本應用標識標注所述第三類別信息中的類別標簽;根據所述應用信息提取相應的樣本應用標識對應的特征向量,根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器;根據所述訓練的分類器為目標應用標識標注所述第三類別信息中的類別標簽。2.根據權利要求1所述的生成應用類別標簽的方法,其特征在于,所述將所述第一類別信息和所述第二類別信息整合成第三類別信息的步驟之后還包括:獲取所述第一類別信息和所述第二類別信息中與所述第三類別信息中的類別標簽匹配的同義類別標簽;建立所述同義類別標簽與相應的所述第三類別信息中的類別標簽的映射關系;所述將所述應用描述信息與所述第三類別信息中的類別標簽進行匹配的步驟還包括:查找與所述應用描述信息匹配的類別標簽或同義類別標簽,將查找到的類別標簽或同義類別標簽對應的類別標簽作為所述應用描述信息對應的樣本應用標識的類別標簽。3.根據權利要求1所述的生成應用類別標簽的方法,其特征在于,所述根據所述應用信息提取相應的樣本應用標識對應的特征向量的步驟包括:根據所述應用信息提取相應的樣本應用標識對應的應用屬性向量、用戶群組屬性向量、關鍵詞匹配向量、文檔主題LDA向量、文檔特征doc2vec向量作為特征向量。4.根據權利要求1所述的生成應用類別標簽的方法,其特征在于,所述根據所述樣本應用標識對應的類別標簽和對應的特征向量訓練分類器的步驟包括:獲取所述第三類別信息中類別標簽的個數,根據所述類別標簽的個數生成對應數量的分類器。5.根據權利要求4所述的生成應用類別標簽的方法,其特征在于,所述根據所述類別標簽的個數生成對應數量的分類器的步驟還包括:將根據所述類別標簽的個數生成對應第一數量的分類器作為主分類器;對于每個主分類器,根據所述樣本應用標識的類別標簽和對應的特征向量獲取每個主分類器對應的正樣本數和負樣本數的比例;根據所述每個主分類器對應的正樣本數和負樣本數的比例生成對應第二數量的與該主分類器對應子分...
【專利技術屬性】
技術研發人員:曹訓,黃澤謙,卓居超,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。