使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法技術方案

技術編號：8687930 閱讀：234 留言：0更新日期：2013-05-09 07:47

本發(fā)明專利技術提供了用于識別將認為是對于用戶或系統(tǒng)所有者而言淫穢或另外具有攻擊性的語言的計算機實施的系統(tǒng)和方法。接收到多個攻擊性文字，其中每個攻擊性文字與標識該文字的攻擊性的嚴重性評分相關聯(lián)。接收文字串。計算在候選文字與多個攻擊性文字中的每個攻擊性文字之間的距離，且計算候選文字的多個攻擊性評分，每個攻擊性評分是基于在候選文字與該攻擊性文字之間的距離和攻擊性文字的嚴重性評分。關于候選文字是否為攻擊文字做出判斷，其中在多個攻擊性評分中的最高攻擊性評分超過攻擊性閾值時認為候選文字為攻擊性文字。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】
【國外來華專利技術】使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法
本公開大體而言涉及用于識別將認為對于用戶或系統(tǒng)所有者而言具有攻擊性的語言的計算機實施的系統(tǒng)和方法。
技術介紹
淫穢（Obscenity）（在拉丁語中，obscenus，表示“污穢、令人厭惡、可憎的”）為最常用于描述攻擊性的表達（文字、短語、圖像、動作）的用語。淫穢的定義因文化不同，在單個文化內的社區(qū)之間以及在這些社區(qū)內的個人之間而不同。許多文化制定了法律來限定哪些認為是淫穢的或者另外具有攻擊性，且常常使用審查制度來試圖抑制或控制屬于這些定義內的材料。各種國家對于他們作為法人允許他們的公民訪問和在他們本地人口中宣傳的材料類型具有不同的標準。這些國家許可的內容廣泛不同，且某些對于違反限制的人具有極端的懲罰。但是，雖然訪問這些類型的內容可能在一個社會中導致懲罰，該內容在另一社會中可能會被很好地接受。
技術實現(xiàn)思路
根據(jù)本文所提供的教導內容，提供了用于識別將認為對于用戶或系統(tǒng)所有者而言淫穢或另外具有攻擊性的語言的實施的系統(tǒng)和方法。舉例而言，一種系統(tǒng)和方法可被配置為：使用一個或多個處理器來接收多個攻擊性文字，其中在多個攻擊性文字中的每個相應攻擊性文字與識別該文字的攻擊性的嚴重性評分相關聯(lián)。接收文字串，其中候選文字選自所述文字串；且可計算在候選文字與多個攻擊性文字中的每個攻擊性文字之間的距離。可計算候選文字的多個攻擊性評分，每個攻擊性評分是基于在候選文字與該攻擊性文字之間的距離和攻擊性文字的嚴重性評分。對候選文字是否為攻擊文字(offenderword)做出判斷，其中在多個攻擊性評分中的最高攻擊性評分超過攻擊性閾...
使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法

【技術保護點】

【技術特征摘要】
【國外來華專利技術】2010.01.29 US 12/696,9911.一種用于文字攻擊性檢測和處理的方法，其包括：使用一個或多個處理器來接收多個攻擊性文字，其中在所述多個攻擊性文字中的每個相應攻擊性文字與標識該相應文字的攻擊性的嚴重性評分相關聯(lián)；接收文字串，其中候選文字選自所述文字串；對于在所述多個攻擊性文字中的每個相應攻擊性文字，計算候選文字與所述相應攻擊性文字之間的距離；計算所述候選文字的多個攻擊性評分，所述多個攻擊性評分中的每個攻擊性評分基于(i)在所述候選文字與所述多個攻擊性文字中的攻擊性文字之間的所計算的距離和(ii)所述攻擊性文字的嚴重性評分；以及基于所述候選文字的多個攻擊性評分中的最高評分是否超過了攻擊性閾值來判斷所述候選文字是否為攻擊文字；其中，候選文字的攻擊性評分根據(jù)下式之一來計算：攻擊性評分＝A*((B-C)/B)；攻擊性評分＝A*((B-(1/C)/B)；攻擊性評分＝Max(((A-C)/A),0)；以及攻擊性評分＝(((B-C)/B)>T)；其中，A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分；B為所述攻擊性文字的長度；以及C為在所述候選文字與所述攻擊性文字之間的計算的距離；T為攻擊性閾值。2.根據(jù)權利要求1所述的方法，其特征在于，所述多個攻擊性文字中的每個文字和所述文字串中的每個文字包括簡寫。3.根據(jù)權利要求1所述的方法，其特征在于，所述距離被計算為：Levenshtein距離、Hamming距離、Damerau-Levenshtein距離、Dice系數(shù)、相似性指數(shù)、或Jaro-Winkler距離。4.根據(jù)權利要求1所述的方法，其特征在于，所述攻擊性閾值由服務管理員設置；其中所述文字串從用戶輸入到服務；以及其中如果在所述文字串中的候選文字由于具有超過所述服務管理員所設置的攻擊性閾值的攻擊性評分而被識別為攻擊文字，則拒絕自所述用戶到所述服務的輸入。5.根據(jù)權利要求4所述的方法，其特征在于，所述服務為內容評論入口，且其中所述攻擊性閾值基于下列之一來設置：其中存在被評論的內容的內容分組；所述攻擊性閾值相關聯(lián)的特定內容；以及內容的第三方內容分級。6.根據(jù)權利要求5所述的方法，其特征在于，所述內容分組包括主題的特定分類，類型，地理原產地，其中所述地理包括國家、州、城市、公國或者它們的區(qū)域或子區(qū)域的集合，專業(yè)或政府認證或分級的組、或行業(yè)節(jié)日或事件精選。7.根據(jù)權利要求4所述的方法，其特征在于，所述服務選自下列的組：留言板、內容評論入口、聊天室、電子布告欄系統(tǒng)、社交網(wǎng)站和多人游戲。8.根據(jù)權利要求1所述的方法，其特征在于:所述攻擊性閾值由服務用戶來設置；所述文字串為從所述服務到所述用戶的有意輸出；以及包含因攻擊性評分超過所述用戶設置的所述攻擊性閾值而被識別為攻擊文字的文字串在顯示給所述用戶之前被修改。9.根據(jù)權利要求8所述的方法，其特征在于，根據(jù)下列之一來修改所述文字串：刪除所述文字串使得所述文字串并不顯示給所述用戶；從所述文字串刪除所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶；刪改所述文字串使得所述文字串并不顯示給所述用戶；或者，從所述文字串刪改所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶。10.根據(jù)權利要求8所述的方法，其特征在于，所述多個攻擊性文字和攻擊性閾值是基于對所述用戶所確定的文化規(guī)范來設置。11.根據(jù)權利要求8所述的方法，其特征在于，所述多個攻擊性文字和攻擊性閾值基于政府機構限定的定義來設置，所述政府機構對于用戶或者與所述用戶相關聯(lián)的非政府機構具有管轄權。12.根據(jù)權利要求8所述的方法，其特征在于，對于用戶設置最大攻擊性閾值，且其中所述用戶不能設置高于所述最大攻擊性閾值的攻擊性閾值。13.根據(jù)權利要求1所述的方法，其特征在于，包含因攻擊性評分超過所述攻擊性閾值而被識別為攻擊文字的文字串被拒絕輸入到系統(tǒng)內。14.根據(jù)權利要求1所述的方法，其特征在于，所述多個攻擊性文字和標識所述多個攻擊性文字中每一個的嚴重性評分由用戶、服務管理員、第三方或其任何組合來標識。15.根據(jù)權利要求1所述的方法，其特征在于，所述最高攻擊性評分為下列之一：比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最小值攻擊性評分；或者比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最大值攻擊性評分。16.一種用于文字攻擊性檢...

【專利技術屬性】
技術研發(fā)人員：約瑟夫·L·斯皮爾斯，
申請(專利權)人：因迪普拉亞公司，
類型：
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術

攻擊性技術