The invention discloses a method for determining the source of the corpus, suitable for implementation in a computing device, a computing device and a storage device is coupled with the sample data, data storage device for storing samples from at least one source of data samples, the method comprises the following steps: at least one source storage device from the corpus corpus samples for each sample; the source of corpus samples, the corpus samples and to determine the source of the data together, and according to a predetermined encoding data compression algorithm, to generate a compressed file; the compression ratio is calculated for each compressed file; and will receive at least one compressed file, a source compression rate the highest compressed file corresponding to the identified as to determine the source of the corpus. The invention also discloses a device and a computing device for determining the source of the corpus.
【技術實現步驟摘要】
一種確定語料的來源的方法、設備及計算設備
本專利技術涉及計算機
,尤其涉及一種確定語料的來源的方法、設備及計算設備。
技術介紹
隨著網絡通信技術的迅速發展、互聯網應用的持續深化、所承載信息的日益豐富,互聯網已成為人類社會重要的基礎設施。截至2016年6月,中國網民規模達7.10億,其中上半年新增網民2132萬人,增長率為3.1%。互聯網普及率達到51.7%,超過全球平均水平3.1個百分點。在這7.1億的網民中,每天都會有大量的匿名語料(例如匿名言論和匿名惡意代碼)產生,給社會的安定和諧以及群眾的信息安全造成了巨大的影響。因此,確定這些語料的來源十分必要。通常地,可以通過查找發布語料的設備的IP地址和MAC地址來確定其來源。然而,此種方式成本較高,花費時間較長,同時難以查找到精心偽裝過的語料,比如發布者利用公共場所的網絡、再通過多層代理發布的匿名言論。因此,迫切需要一種更先進的更有效的確定語料的來源的方案。
技術實現思路
為此,本專利技術提供一種確定語料的來源的方案,以力圖解決或者至少緩解上面存在的至少一個問題。根據本專利技術的一個方面,提供了一種確定語料的來源的方法,適于在計算設備中執行,計算設備與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來 ...
【技術保護點】
一種確定語料的來源的方法,適于在計算設備中執行,所述計算設備與語料樣本存儲設備相耦接,所述語料樣本存儲設備存儲來自至少一個來源的語料樣本,所述方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為所述要確定來源的語料的來源。
【技術特征摘要】
1.一種確定語料的來源的方法,適于在計算設備中執行,所述計算設備與語料樣本存儲設備相耦接,所述語料樣本存儲設備存儲來自至少一個來源的語料樣本,所述方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為所述要確定來源的語料的來源。2.如權利要求1所述的方法,其中,還包括步驟:在將該語料樣本和要確定來源的語料組合在一起之后,對組合在一起的語料樣本和要確定來源的語料按照詞語或短句進行分割。3.如權利要求1所述的方法,其中,所述語料樣本被按照詞語或短句進行分割,所述方法還包括步驟:在將該語料樣本和要確定來源的語料組合在一起之前,對所述要確定來源的語料按照與所述語料樣本相同的方式進行分割。4.如權利要求1-3中任一項所述的方法,其中,計算壓縮文件的壓縮率的步驟還包括:根據壓縮文件的大小、該壓縮文件所包含的語料樣本和要確定來源的語料的大小計算該壓縮文件的壓縮率。5.如權利要求4所述的方法,其中,計算壓縮文件的壓縮率公式如下:壓縮率=1-壓縮文件大小/(語料樣本大小+要確定來源的語料大小)。6.一種確定語料的來源的設備,與語料樣本存儲設備相耦接,所述語料樣本存儲設備存儲...
【專利技術屬性】
技術研發人員:馬東辰,
申請(專利權)人:北京知道創宇信息技術有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。