• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種確定語料的來源的方法、設備及計算設備技術

    技術編號:15691111 閱讀:118 留言:0更新日期:2017-06-24 04:03
    本發明專利技術公開了一種確定語料的來源的方法,適于在計算設備中執行,計算設備與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來源的語料的來源。本發明專利技術還公開一種確定確定語料的來源的設備及計算設備。

    Method, apparatus and computing device for determining source of corpus

    The invention discloses a method for determining the source of the corpus, suitable for implementation in a computing device, a computing device and a storage device is coupled with the sample data, data storage device for storing samples from at least one source of data samples, the method comprises the following steps: at least one source storage device from the corpus corpus samples for each sample; the source of corpus samples, the corpus samples and to determine the source of the data together, and according to a predetermined encoding data compression algorithm, to generate a compressed file; the compression ratio is calculated for each compressed file; and will receive at least one compressed file, a source compression rate the highest compressed file corresponding to the identified as to determine the source of the corpus. The invention also discloses a device and a computing device for determining the source of the corpus.

    【技術實現步驟摘要】
    一種確定語料的來源的方法、設備及計算設備
    本專利技術涉及計算機
    ,尤其涉及一種確定語料的來源的方法、設備及計算設備。
    技術介紹
    隨著網絡通信技術的迅速發展、互聯網應用的持續深化、所承載信息的日益豐富,互聯網已成為人類社會重要的基礎設施。截至2016年6月,中國網民規模達7.10億,其中上半年新增網民2132萬人,增長率為3.1%。互聯網普及率達到51.7%,超過全球平均水平3.1個百分點。在這7.1億的網民中,每天都會有大量的匿名語料(例如匿名言論和匿名惡意代碼)產生,給社會的安定和諧以及群眾的信息安全造成了巨大的影響。因此,確定這些語料的來源十分必要。通常地,可以通過查找發布語料的設備的IP地址和MAC地址來確定其來源。然而,此種方式成本較高,花費時間較長,同時難以查找到精心偽裝過的語料,比如發布者利用公共場所的網絡、再通過多層代理發布的匿名言論。因此,迫切需要一種更先進的更有效的確定語料的來源的方案。
    技術實現思路
    為此,本專利技術提供一種確定語料的來源的方案,以力圖解決或者至少緩解上面存在的至少一個問題。根據本專利技術的一個方面,提供了一種確定語料的來源的方法,適于在計算設備中執行,計算設備與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來源的語料的來源。根據本專利技術的另一方面,提供了一種確定語料的來源的設備,與語料樣本存儲設備相耦接,語料樣本存儲設備存儲來自至少一個來源的語料樣本,該確定語料的來源的設備包括:樣本獲取模塊,適于從語料樣本存儲設備中獲取至少一個來源的語料樣本;語料壓縮模塊,適于對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;比率計算模塊,適于對語料壓縮模塊生成的每個壓縮文件,計算該壓縮文件的壓縮率;以及來源確定模塊,適于將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為要確定來源的語料的來源。根據本專利技術的還有一個方面,提供了一種計算設備,包括:至少一個處理器;以及包括計算機程序指令的至少一個存儲器;至少一個存儲器和計算機程序指令被配置為與至少一個處理器一起使得計算設備執行根據本專利技術的確定語料的來源的方法。根據本專利技術的確定語料的來源的方案,通過將收集的已知來源的語料樣本與要確定來源的語料一齊壓縮并計算壓縮率,以壓縮率為依據來確定語料的來源。整個方案實現簡單快捷,同時準確率高,大大提高了用戶的操作體驗。附圖說明為了實現上述以及相關目的,本文結合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護的主題的范圍內。通過結合附圖閱讀下面的詳細描述,本公開的上述以及其它目的、特征和優勢將變得更加明顯。遍及本公開,相同的附圖標記通常指代相同的部件或元素。圖1示出了根據本專利技術的一個示例性實施方式的計算設備100的結構框圖;圖2示出了根據本專利技術的一個示例性實施方式的確定語料的來源的設備200的結構框圖;以及圖3示出了根據本專利技術的一個示例性實施方式的確定語料的來源的方法300的流程圖。具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。圖1示出了根據本專利技術一個示例性實施例的計算設備100的結構框圖。該計算設備100可以實現為服務器,例如文件服務器、數據庫服務器、應用程序服務器和WEB服務器等,也可以實現為包括桌面計算機和筆記本計算機配置的個人計算機。此外,計算設備100還可以實現為小尺寸便攜(或者移動)電子設備的一部分,這些電子設備可以是諸如蜂窩電話、個人數字助理(PDA)、個人媒體播放器設備、無線網絡瀏覽設備、個人頭戴設備、應用專用設備、或者可以包括上面任何功能的混合設備。在基本的配置102中,計算設備100典型地包括系統存儲器106和一個或者多個處理器104。存儲器總線108可以用于在處理器104和系統存儲器106之間的通信。取決于期望的配置,處理器104可以是任何類型的處理,包括但不限于:微處理器((μP)、微控制器(μC)、數字信息處理器(DSP)或者它們的任何組合。處理器104可以包括諸如一級高速緩存110和二級高速緩存112之類的一個或者多個級別的高速緩存、處理器核心114和寄存器116。示例的處理器核心114可以包括運算邏輯單元(ALU)、浮點數單元(FPU)、數字信號處理核心(DSP核心)或者它們的任何組合。示例的存儲器控制器118可以與處理器104一起使用,或者在一些實現中,存儲器控制器218可以是處理器104的一個內部部分。取決于期望的配置,系統存儲器106可以是任意類型的存儲器,包括但不限于:易失性存儲器(諸如RAM)、非易失性存儲器(諸如ROM、閃存等)或者它們的任何組合。系統存儲器106可以包括操作系統120、一個或者多個應用122以及程序數據124。在一些實施方式中,應用122可以布置為在操作系統上利用程序數據124進行操作。計算設備100還可以包括有助于從各種接口設備(例如,輸出設備142、外設接口144和通信設備146)到基本配置102經由總線/接口控制器130的通信的接口總線140。示例的輸出設備142包括圖形處理單元148和音頻處理單元150。它們可以被配置為有助于經由一個或者多個A/V端口152與諸如顯示器或者揚聲器之類的各種外部設備進行通信。示例外設接口144可以包括串行接口控制器154和并行接口控制器156,它們可以被配置為有助于經由一個或者多個I/O端口158和諸如輸入設備(例如,鍵盤、鼠標、筆、語音輸入設備、觸摸輸入設備)或者其他外設(例如打印機、掃描儀等)之類的外部設備進行通信。示例的通信設備146可以包括網絡控制器160,其可以被布置為便于經由一個或者多個通信端口164與一個或者多個其他計算設備162通過網絡通信鏈路的通信。網絡通信鏈路可以是通信介質的一個示例。通信介質通常可以體現為在諸如載波或者其他傳輸機制之類的調制數據信號中的計算機可讀指令、數據結構、程序模塊,并且可以包括任何信息遞送介質。“調制數據信號”可以這樣的信號,它的數據集中的一個或者多個或者它的改變可以在信號中編碼信息的方式進行。作為非限制性的示例,通信介質可以包括諸如有線網絡或者專線網絡之類的有線介質,以及諸如聲音、射頻(RF)、微波、紅外(IR)或者其它無線介質在內的各種無線介質。這里使用的術語計算機可讀介質可以包括存儲介質和通信介質二者。在本專利技術中,計算設備100的應用122可以包括被配置為實現本專利技術方案的確定語料的來源的設備200。圖2示出了根據本專利技術一個示例性實施方式的確定語料的來源的設本文檔來自技高網...
    一種確定語料的來源的方法、設備及計算設備

    【技術保護點】
    一種確定語料的來源的方法,適于在計算設備中執行,所述計算設備與語料樣本存儲設備相耦接,所述語料樣本存儲設備存儲來自至少一個來源的語料樣本,所述方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為所述要確定來源的語料的來源。

    【技術特征摘要】
    1.一種確定語料的來源的方法,適于在計算設備中執行,所述計算設備與語料樣本存儲設備相耦接,所述語料樣本存儲設備存儲來自至少一個來源的語料樣本,所述方法包括步驟:從語料樣本存儲設備中獲取至少一個來源的語料樣本;對每個來源的語料樣本,將該語料樣本和要確定來源的語料組合在一起,并按照預定編碼算法進行數據壓縮,以生成一個壓縮文件;計算每個壓縮文件的壓縮率;以及將所獲得的至少一個壓縮文件中、壓縮率最高的一個壓縮文件所對應的來源確定為所述要確定來源的語料的來源。2.如權利要求1所述的方法,其中,還包括步驟:在將該語料樣本和要確定來源的語料組合在一起之后,對組合在一起的語料樣本和要確定來源的語料按照詞語或短句進行分割。3.如權利要求1所述的方法,其中,所述語料樣本被按照詞語或短句進行分割,所述方法還包括步驟:在將該語料樣本和要確定來源的語料組合在一起之前,對所述要確定來源的語料按照與所述語料樣本相同的方式進行分割。4.如權利要求1-3中任一項所述的方法,其中,計算壓縮文件的壓縮率的步驟還包括:根據壓縮文件的大小、該壓縮文件所包含的語料樣本和要確定來源的語料的大小計算該壓縮文件的壓縮率。5.如權利要求4所述的方法,其中,計算壓縮文件的壓縮率公式如下:壓縮率=1-壓縮文件大小/(語料樣本大小+要確定來源的語料大小)。6.一種確定語料的來源的設備,與語料樣本存儲設備相耦接,所述語料樣本存儲設備存儲...

    【專利技術屬性】
    技術研發人員:馬東辰
    申請(專利權)人:北京知道創宇信息技術有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码一区二区三区网站| 精品无码久久久久久久久久| 亚洲Av无码专区国产乱码DVD| 亚洲AV无码1区2区久久| 日韩人妻精品无码一区二区三区| 91精品久久久久久无码| 色综合久久久无码中文字幕 | 亚洲中文字幕无码av永久| 无码熟妇αⅴ人妻又粗又大 | 无码国产精品一区二区免费3p| 性色av极品无码专区亚洲| 十八禁视频在线观看免费无码无遮挡骂过| 亚洲AV无码久久精品狠狠爱浪潮| a级毛片无码免费真人| 久久午夜夜伦鲁鲁片无码免费| 国产成人无码AV片在线观看| 精品无码久久久久久午夜| 亚洲精品~无码抽插| 一区二区三区无码高清视频| 无码亚洲成a人在线观看| 亚洲av无码一区二区三区乱子伦| 日韩精品无码Av一区二区| 精品爆乳一区二区三区无码av| 免费无码又爽又刺激高潮软件| 无码任你躁久久久久久| 亚洲AV综合色区无码二区偷拍| 亚洲精品无码专区久久久 | 精品无码成人片一区二区98| 国产在线无码精品电影网| 亚洲免费无码在线| 精品无码成人网站久久久久久| 亚洲av永久无码精品秋霞电影秋 | 69天堂人成无码麻豆免费视频| 国产精品无码无片在线观看| 日韩精品无码视频一区二区蜜桃 | JAVA性无码HD中文| 无码夫の前で人妻を犯す中字| 手机永久无码国产AV毛片| 18禁无遮挡无码国产免费网站 | 色窝窝无码一区二区三区色欲| 无码人妻黑人中文字幕|