• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于層次式SimHash的Android惡意代碼分類方法技術(shù)

    技術(shù)編號:15691353 閱讀:65 留言:0更新日期:2017-06-24 04:29
    一種基于層次式simhash的Android惡意代碼檢測和分類方法,包括以下步驟:步驟一,惡意代碼檢測和惡意家族的訓(xùn)練集,對已知各個惡意家族中的惡意應(yīng)用程序進行分層次提取,形成各個惡意家族的分類模型;使用投票算法計算每一層的可信度,經(jīng)過設(shè)定數(shù)量的訓(xùn)練之后得出每一層的可信度權(quán)重;步驟二,惡意代碼檢測和惡意家族分類的測試,首先對待測Android應(yīng)用程序進行分層提取,然后進行惡意代碼檢測,若檢測出其為非惡意應(yīng)用程序,得出檢測結(jié)果,否則從分層得到的5個方面與惡意家族模型進行simhash相似性對比,同時各層的可信度,分別對每一層的對比結(jié)果做加權(quán)投票分析,綜合得出一個最終結(jié)果。本發(fā)明專利技術(shù)結(jié)果可信度較高。

    A Android malicious code classification method based on hierarchical SimHash

    A method and classification of Android hierarchical simhash based on malicious code detection, comprising the following steps: 1, malicious code detection and malware family training set for each family of known malicious malicious applications are layered extraction, classification model of all malicious families; use the voting algorithm to calculate the reliability of each layer and after a set number of training the credibility weights of each layer; step two, malicious code detection and malware family classification test, first tested the Android application layer extraction, and detection of malicious code, if detected as non malicious applications, the results obtained, otherwise 5 aspects and malicious the family model obtained by the simhash from a hierarchical similarity comparison, each layer of the credibility of the results of each layer Do a weighted voting analysis to get a final result. The invention has high reliability.

    【技術(shù)實現(xiàn)步驟摘要】
    一種基于層次式SimHash的Android惡意代碼分類方法
    本專利技術(shù)涉及Android惡意代碼相檢測分類
    ,尤其是一種基于層次式simhash的Android惡意代碼檢測方法。
    技術(shù)介紹
    隨著移動互聯(lián)網(wǎng)的發(fā)展,移動智能終端越來越普及,移動應(yīng)用的種類與數(shù)量都呈現(xiàn)高速增長,智能手機已經(jīng)成為網(wǎng)民最常用的上網(wǎng)工具。來自Gartner統(tǒng)計數(shù)據(jù)顯示,2015年第4季度全球智能手機的銷售量為4億多臺,其中Android系統(tǒng)占據(jù)了80.7%。截止2016年2月1日,僅Android官方應(yīng)用市場GooglePlay上的應(yīng)用數(shù)量就接近200萬。同時,移動惡意應(yīng)用的種類與數(shù)量也呈現(xiàn)高速增長,根據(jù)阿里聚安全發(fā)布的2015移動安全病毒年報,18%的Android設(shè)備感染過病毒,95%的熱門移動應(yīng)用存在仿冒應(yīng)用,惡意應(yīng)用類型越來越多。常見手機病毒的惡意行為包括惡意扣費、信息竊取、短信劫持等,可嚴重損害手機用戶的利益,危害不容忽視。Android惡意代碼檢測方法主要有基于特征代碼和基于行為的檢測。基于行為的檢測方法則通過程序的行為與已知惡意行為模式進行匹配,判斷目標(biāo)文件是否包含惡意代碼。誤報率雖然并不理想,但可實現(xiàn)對未知惡意代碼或病毒的檢測,彌補基于特征代碼的檢測。基于行為的分析又可進一步分為動態(tài)和靜態(tài)兩種分析方法。動態(tài)分析方法是指利用“沙盒或虛擬機”來模擬運行程序,通過攔截或監(jiān)控的方式分析程序運行時的行為特征,一定程度上可繞過代碼混淆等代碼保護機制,但是計算資源和時間消耗較大,且代碼覆蓋率低。相對于重量級的動態(tài)分析,靜態(tài)分析則相對屬于輕量級的方法,通常是通過逆向工程抽取程序的特征,分析函數(shù)調(diào)用、程序指令等序列,具有快速高效、代碼覆蓋率高等特點。其主要缺陷是分析時間較長,同時誤報率并不穩(wěn)定。基于特征代碼的檢測方法通過檢測文件是否擁有已知惡意軟件的特征代碼來判斷其是否為惡意軟件,具有快速、準(zhǔn)確率高等特點。國外著名的Android惡意代碼檢測工具Androguard就是基于特征代碼實現(xiàn)的。simhash算法是由GoogleMosesCharikar發(fā)表的一篇論文“detectingnear-duplicatesforwebcrawling”中提出的,專門用來解決億萬級別的網(wǎng)頁的去重任務(wù)。simhash作為localitysensitivehash(局部敏感哈希)的一種:其主要思想是降維,將高維的特征向量映射成低維的特征向量,通過兩個向量的HammingDistance來確定文章是否重復(fù)或者高度近似。其中,HammingDistance,又稱漢明距離,在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應(yīng)位置的不同字符的個數(shù)。也就是說,它就是將一個字符串變換成另外一個字符串所需要替換的字符個數(shù)。例如:1011101與1001001之間的漢明距離是2。至于我們常說的字符串編輯距離則是一般形式的漢明距離。如此,通過比較多個文檔的simHash值的海明距離,可以獲取它們的相似度。simhash值的生成圖解如圖1所示。算法過程大概如下:1,將一個f維的向量V初始化為0;f位的二進制數(shù)S初始化為0;2,對每一個特征:用傳統(tǒng)的hash算法對該特征產(chǎn)生一個f位的簽名b。對i=1到f:如果b的第i位為1,則V的第i個元素加上該特征的權(quán)重;否則,V的第i個元素減去該特征的權(quán)重。3,如果V的第i個元素大于0,則S的第i位為1,否則為0;4,輸出S作為簽名。該算法首先將每一個特征映射為f維空間的一個向量,這個映射規(guī)則具體是怎樣并不重要,只要對很多不同的特征來說,它們對所對應(yīng)的向量是均勻隨機分布的,并且對相同的特征來說對應(yīng)的向量是唯一的就行。比如一個特征的4位hash簽名的二進制表示為1010,那么這個特征對應(yīng)的4維向量就是(1,-1,1,-1)T,即hash簽名的某一位為1,映射到的向量的對應(yīng)位就為1,否則為-1。然后,將一個文檔中所包含的各個特征對應(yīng)的向量加權(quán)求和,加權(quán)的系數(shù)等于該特征的權(quán)重。得到的和向量即表征了這個文檔,我們可以用向量之間的夾角來衡量對應(yīng)文檔之間的相似度。最后,為了得到一個f位的簽名,需要進一步將其壓縮,如果和向量的某一維大于0,則最終簽名的對應(yīng)位為1,否則為0。這樣的壓縮相當(dāng)于只留下了和向量所在的象限這個信息,而64位的簽名可以表示多達264個象限,因此只保存所在象限的信息也足夠表征一個文檔了。但是,單一的使用simhash方法對Android惡意代碼的檢測和分類,在實際情況中有很大可能性出現(xiàn)誤報等情況,其中由于各種不穩(wěn)定因素,會導(dǎo)致檢測的結(jié)果出現(xiàn)誤差。VotedPerceptron算法基于RosenblattandFrank在1957年提出的感知器算法,它充分利用了具有大分界面的線性可分數(shù)據(jù)。該算法具有實現(xiàn)簡單,比SVM更高效的特點,也被運用于使用核函數(shù)的高維空間問題中。有人[ManabuSassano,IJCNLP]在自然語言處理實驗中比較了VotedPerceptron和SVM的分類效率,發(fā)現(xiàn)VotedPerceptron與SVM準(zhǔn)確性相當(dāng),但學(xué)習(xí)時間和預(yù)測速度略勝一籌。該方法簡介如下:假設(shè)特征向量為X,|X|表示X的歐氏長度,X的標(biāo)簽y的取值為{-1,1}。該算法初始一個0預(yù)測向量V,V用于以后預(yù)測新的特征向量X的標(biāo)簽。即y'=sign(v.x)。如果預(yù)測值y'不同于真實值y,則更新預(yù)測向量v,即v=v+yx。如果y與y'相同,則v不變。這個過程反復(fù)進行。如果數(shù)據(jù)是線性可分,該算法已被證明為只會預(yù)測有限次錯誤。因此,如果反復(fù)訓(xùn)練數(shù)據(jù),V將會收斂到一個能正確分類所有X的向量。預(yù)測錯誤的次數(shù)是O(|#y1-#y-1|)的,即錯誤的次數(shù)與y為1與y為-1的次數(shù)差有關(guān)。在訓(xùn)練過程中,可以存儲更多信息可以在測試集上產(chǎn)生更好的預(yù)測效果。在發(fā)現(xiàn)預(yù)測錯誤后,記錄此時的預(yù)測向量V。當(dāng)下一個預(yù)測錯誤產(chǎn)生時,我們計算該V預(yù)測正確的次數(shù)。將預(yù)測正確的次數(shù)作為預(yù)測向量V的權(quán)重。當(dāng)測試過程中預(yù)測一個向量的標(biāo)簽時,計算每個預(yù)測向量的預(yù)測值-1或1,然后用權(quán)重組合這些預(yù)測值,得到一個最終的預(yù)測值。該方法基于這樣的直覺:既然某個預(yù)測向量能產(chǎn)生更多的正確預(yù)測值,那就應(yīng)該有更大的權(quán)重。詳細算法圖如圖2。
    技術(shù)實現(xiàn)思路
    為了克服已有惡意代碼檢測和分類方法的結(jié)果可行度較低的不足,本專利技術(shù)提供了一種結(jié)果可信度較高的基于層次式simhash的Android惡意代碼檢測和分類方法,該方法可以快速有效的檢測Android應(yīng)用程序,并將其準(zhǔn)確的進行分類,并能夠及時給出其惡意家族的類別信息。本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:一種基于層次式simhash的Android惡意代碼檢測和分類方法,包括以下步驟:步驟一,惡意代碼檢測和惡意家族的訓(xùn)練集,過程如下:對已知各個惡意家族中的惡意應(yīng)用程序進行分層次提取,分別從xml文件、smali代碼、smali代碼指令集、java代碼、java代碼指令集這5個方面分析應(yīng)用程序,從而對每一個應(yīng)用程序建立5個特征,對每個惡意家族,建立由該家族中惡意應(yīng)用程序組成的5個特征集,從而形成各個惡意家族的分類模型;在形成設(shè)定量的惡意家族模型之后,使用投票算法計算每一層的可信度,經(jīng)過設(shè)定數(shù)量的訓(xùn)練之后,得出每一層的可信度權(quán)重;步驟二,惡意代本文檔來自技高網(wǎng)
    ...
    一種基于層次式SimHash的Android惡意代碼分類方法

    【技術(shù)保護點】
    一種基于層次式simhash的Android惡意代碼檢測和分類方法,其特征在于:包括以下步驟:步驟一,惡意代碼檢測和惡意家族的訓(xùn)練集,過程如下:對已知各個惡意家族中的惡意應(yīng)用程序進行分層次提取,分別從xml文件、smali代碼、smali代碼指令集、java代碼、java代碼指令集這5個方面分析應(yīng)用程序,從而對每一個應(yīng)用程序建立5個特征,對每個惡意家族,建立由該家族中惡意應(yīng)用程序組成的5個特征集,從而形成各個惡意家族的分類模型;在形成設(shè)定量的惡意家族模型之后,使用投票算法計算每一層的可信度,經(jīng)過設(shè)定數(shù)量的訓(xùn)練之后,得出每一層的可信度權(quán)重;步驟二,惡意代碼檢測和惡意家族分類的測試,過程如下:首先對待測Android應(yīng)用程序進行分層提取,分別得到xml文件、smali代碼、smali代碼指令集、java代碼、java代碼指令集這5個方面的集合,然后進行惡意代碼檢測,若檢測出其為非惡意應(yīng)用程序,得出檢測結(jié)果,若檢測出為惡意的應(yīng)用程序,從分層得到的5個方面與步驟一得到的惡意家族模型進行simhash相似性對比,同時使用步驟一得到的各層的可信度,分別對每一層的對比結(jié)果做加權(quán)投票分析,綜合得出一個最終結(jié)果。...

    【技術(shù)特征摘要】
    1.一種基于層次式simhash的Android惡意代碼檢測和分類方法,其特征在于:包括以下步驟:步驟一,惡意代碼檢測和惡意家族的訓(xùn)練集,過程如下:對已知各個惡意家族中的惡意應(yīng)用程序進行分層次提取,分別從xml文件、smali代碼、smali代碼指令集、java代碼、java代碼指令集這5個方面分析應(yīng)用程序,從而對每一個應(yīng)用程序建立5個特征,對每個惡意家族,建立由該家族中惡意應(yīng)用程序組成的5個特征集,從而形成各個惡意家族的分類模型;在形成設(shè)定量的惡意家族模型之后,使用投票算法計算每一層的可信度,經(jīng)過設(shè)定數(shù)量的訓(xùn)練之后,得出每一層的可信度權(quán)重;步驟二,惡意代碼檢測和惡意家族分類的測試,過程如下:首先對待測Android應(yīng)用程序進行分層提取,分別得到xml文件、smali代碼、smali代碼指令集、java代碼、java代碼指令集這5個方面的集合,然后進行惡意代碼檢測,若檢測出其為非惡意應(yīng)用程序,得出檢測結(jié)果,若檢測出為惡意的應(yīng)用程序,從分層得到的5個方面與步驟一得到的惡意家族模型進行simhash相似性對比,同時使用步驟一得到的各層的可信度,分別對每一層的對比結(jié)果做加權(quán)投票分析,綜合得出一個最終結(jié)果。2.如權(quán)利要求1所述的基于層次式simhash的Android惡意代碼檢測和分類方法,其特征在于:所述步驟一中,利用對Android惡意程序的逆向...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:陳鐵明潘永濤王婷呂明琪陳波江頡
    申請(專利權(quán))人:浙江工業(yè)大學(xué)
    類型:發(fā)明
    國別省市:浙江,33

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品va无码免费麻豆| 日韩人妻无码一区二区三区久久99 | 亚洲VA成无码人在线观看天堂| 一本加勒比HEZYO无码资源网| 亚洲国产成人无码av在线播放 | 无码无套少妇毛多18p| 伊人无码精品久久一区二区| 人妻少妇无码视频在线| 久久久亚洲精品无码| 久久久久久久久无码精品亚洲日韩| 亚洲国产精品无码AAA片| 无码国产亚洲日韩国精品视频一区二区三区 | 亚洲一本大道无码av天堂| 色噜噜综合亚洲av中文无码| 日韩精品无码免费视频| 亚洲精品无码日韩国产不卡av| 久久老子午夜精品无码| 国产亚洲?V无码?V男人的天堂 | 亚洲精品av无码喷奶水糖心| 亚洲AV人无码激艳猛片| 国产羞羞的视频在线观看 国产一级无码视频在线 | 国产AV无码专区亚洲精品| 精品无码黑人又粗又大又长| 亚洲AV成人无码天堂| 精品无码一区二区三区爱欲九九| 中文无码久久精品| 亚洲国产一二三精品无码| 国产激情无码一区二区三区| 无码熟妇αⅴ人妻又粗又大| av区无码字幕中文色| 久久午夜无码鲁丝片秋霞 | 久久久久亚洲AV无码网站| 亚洲va中文字幕无码久久| 国产爆乳无码一区二区麻豆| 超清无码一区二区三区 | 精品无码久久久久久久动漫| 用舌头去添高潮无码视频| 天天看高清无码一区二区三区| 日韩激情无码免费毛片| 日韩av片无码一区二区三区不卡| 亚洲午夜成人精品无码色欲|