• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法技術方案

    技術編號:8687930 閱讀:234 留言:0更新日期:2013-05-09 07:47
    本發(fā)明專利技術提供了用于識別將認為是對于用戶或系統(tǒng)所有者而言淫穢或另外具有攻擊性的語言的計算機實施的系統(tǒng)和方法。接收到多個攻擊性文字,其中每個攻擊性文字與標識該文字的攻擊性的嚴重性評分相關聯(lián)。接收文字串。計算在候選文字與多個攻擊性文字中的每個攻擊性文字之間的距離,且計算候選文字的多個攻擊性評分,每個攻擊性評分是基于在候選文字與該攻擊性文字之間的距離和攻擊性文字的嚴重性評分。關于候選文字是否為攻擊文字做出判斷,其中在多個攻擊性評分中的最高攻擊性評分超過攻擊性閾值時認為候選文字為攻擊性文字。

    【技術實現(xiàn)步驟摘要】
    【國外來華專利技術】使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法
    本公開大體而言涉及用于識別將認為對于用戶或系統(tǒng)所有者而言具有攻擊性的語言的計算機實施的系統(tǒng)和方法。
    技術介紹
    淫穢(Obscenity)(在拉丁語中,obscenus,表示“污穢、令人厭惡、可憎的”)為最常用于描述攻擊性的表達(文字、短語、圖像、動作)的用語。淫穢的定義因文化不同,在單個文化內的社區(qū)之間以及在這些社區(qū)內的個人之間而不同。許多文化制定了法律來限定哪些認為是淫穢的或者另外具有攻擊性,且常常使用審查制度來試圖抑制或控制屬于這些定義內的材料。各種國家對于他們作為法人允許他們的公民訪問和在他們本地人口中宣傳的材料類型具有不同的標準。這些國家許可的內容廣泛不同,且某些對于違反限制的人具有極端的懲罰。但是,雖然訪問這些類型的內容可能在一個社會中導致懲罰,該內容在另一社會中可能會被很好地接受。
    技術實現(xiàn)思路
    根據(jù)本文所提供的教導內容,提供了用于識別將認為對于用戶或系統(tǒng)所有者而言淫穢或另外具有攻擊性的語言的實施的系統(tǒng)和方法。舉例而言,一種系統(tǒng)和方法可被配置為:使用一個或多個處理器來接收多個攻擊性文字,其中在多個攻擊性文字中的每個相應攻擊性文字與識別該文字的攻擊性的嚴重性評分相關聯(lián)。接收文字串,其中候選文字選自所述文字串;且可計算在候選文字與多個攻擊性文字中的每個攻擊性文字之間的距離。可計算候選文字的多個攻擊性評分,每個攻擊性評分是基于在候選文字與該攻擊性文字之間的距離和攻擊性文字的嚴重性評分。對候選文字是否為攻擊文字(offenderword)做出判斷,其中在多個攻擊性評分中的最高攻擊性評分超過攻擊性閾值時認為候選文字為攻擊性文字。一種系統(tǒng)和方法還利用Levenshtein距離、Hamming距離、Damerau-Levenshtein距離、Dice系數(shù)、或Jaro-Winkler距離作為在候選文字與每個攻擊性文字之間的距離。攻擊性閾值由服務管理員設置;其中文字串從用戶輸入到服務;以及其中如果在文字串中的候選文字由于具有超過服務管理員所設置的攻擊性閾值的攻擊性評分而被識別為攻擊文字,則拒絕從所述用戶到服務的輸入。該服務為內容評論入口,其中攻擊性閾值基于下列之一來設置:被評論的內容所存在的類型;攻擊性閾值相關聯(lián)的特定內容;或者內容的第三方內容分級。該服務選自下列:留言板、內容評論入口、聊天室、電子布告欄系統(tǒng)、社交網(wǎng)站或者多人游戲。一種系統(tǒng)和方法可具有由服務的用戶設置的攻擊性閾值,其中文字串為從服務到用戶的有意輸出;其中包含因攻擊性評分超過用戶設置的攻擊性閾值而被識別為攻擊文字的文字串在顯示給用戶之前被修改??赏ㄟ^刪除文字串使得該文字串并不顯示給用戶或者通過刪改(censor)文字串使得不顯示攻擊性文字來修改該文字串。攻擊性文字的默認類別和默認攻擊性閾值可基于用戶當?shù)氐奈幕?guī)范來設置。對用戶設置最大攻擊性閾值,其中用戶不能設置高于最大攻擊性閾值的攻擊性閾值。一種系統(tǒng)和方法可根據(jù)下式來計算候選文字的攻擊性評分:攻擊性評分=A*((B-C)/B);其中A為在多個攻擊性文字中的攻擊性文字的嚴重性評分;其中B為所述攻擊性文字的長度的函數(shù);以及其中C為在候選文字與攻擊性文字之間的計算的距離。多個攻擊性文字和識別多個攻擊性文字中每一個的嚴重性評分由用戶、服務管理員、第三方或其組合來識別。識別多個攻擊性文字可包括識別多個可能攻擊性文字的子列表(其中每個子列表包括可能攻擊性文字的類別),接收攻擊性的文字的類別的標識,且識別多個攻擊性文字為包含于被認為攻擊性的文字類別中的一個或多個中的可能的攻擊性文字。識別攻擊性文字類別可由服務管理員或由服務的用戶來識別。最高攻擊性評分為下列之一:比較多個攻擊性文字中的每一個與候選文字而計算的最小值攻擊性評分;或者比較多個攻擊性文字中的每一個與候選文字而計算的最大值攻擊性評分。附圖說明圖1描繪了其中用戶可與攻擊性文字識別器互動的計算機實施的環(huán)境。圖2為描繪用于識別文字串中的攻擊性文字的攻擊性文字識別器的框圖。圖3為描繪了攻擊性文字列表的示例源或者對于攻擊性文字列表上的文字的貢獻。圖4A和圖4B描繪了示例攻擊性文字列表。圖5為描繪了示例攻擊性文字識別器的選定細節(jié)的框圖。圖6為利用Levenshtein距離計算來描繪攻擊性文字識別器的框圖。圖7為描繪用作輸入過濾器的攻擊性文字識別器的框圖。圖8為描繪用作輸出過濾器的攻擊性文字識別器的框圖。圖9為描繪包括于攻擊性文字列表上的文字標識的框圖。圖10為示例用戶界面,其中,用戶可選擇用戶認為是攻擊性的文字類別來生成攻擊性文字列表且選擇攻擊性閾值。圖11為描繪了攻擊性文字識別器的框圖,攻擊性文字識別器利用用戶位置閾值最大值來設置用于標志攻擊文字的閾值。圖12描繪了示例界面,其中攻擊性文字識別器可用作輸入過濾器。圖13描繪了示例用戶界面,其中攻擊性文字識別器可用作輸出過濾器。圖14為描繪了識別文字串中的攻擊文字的方法的流程圖。具體實施方式圖1描繪了其中用戶102可與攻擊性文字識別器104互動的計算機實施的環(huán)境。攻擊性文字識別器104提供用于節(jié)制讀者或媒體論壇的提供商認為是攻擊性的語言的框架。內容管理系統(tǒng)可用于多種情形中。例如,留言板操作者可配置此留言板的攻擊性閾值。用戶留言板帖子可被解析,帖子的文字被詳細檢查攻擊性閾值,且包含超過攻擊異性閾值的一個或多個用語的帖子可被拒絕、修改以節(jié)制攻擊性(例如,符號的使用可用于刪改攻擊性用語:####、@%^#等)或以其它方式節(jié)制。在另一示例中,諸如留言板的系統(tǒng)的用戶可配置表示其對攻擊性語言的個人敏感性的攻擊性閾值。用戶請求查看的留言板張貼中的內容然后可在通過帖子呈現(xiàn)給用戶之前被詳細檢查。包含超過用戶攻擊性閾值的一個或多個用語的帖子可被隱藏不讓用戶看到,可給出警告,包括用戶查看包括攻擊性語言的帖子的鏈接,或者可修改該帖子以節(jié)制攻擊性,諸如通過使用符號來刪改有異議的用語。在另一示例中,攻擊性文字識別器104可用于到系統(tǒng)的輸入和自系統(tǒng)的輸出中。例如,在允許張貼內容評論(諸如新發(fā)行的電影的評論)的在線服務中,網(wǎng)站所有者可設置將應用的一個或多個攻擊性閾值(例如對于內容評論服務的用戶帖子)。例如,網(wǎng)站所有者可在包含適合于兒童的主題的電影(例如,G級電影)類別的評論中對于認為攻擊性的用語設置很低閾值,而可對于包括更成人主題的電影類別(例如,R級電影)設置更高的攻擊性閾值。然后類別攻擊性閾值可應用于用戶評論,其中包含認為對于該類別而言是攻擊性的用語的帖子可被拒絕或以其它方式節(jié)制。在內容評論服務處的輸入過濾器可與一個或多個額外個別用戶攻擊性過濾器協(xié)同工作。個別用戶可為其查看體驗來標識個人化的攻擊性閾值。然后將呈現(xiàn)給該用戶的內容評論的文本可在向該用戶呈現(xiàn)評論之前被仔細審查。包含超越了用戶攻擊性閾值的一個或多個用語的帖子可隱藏不讓看到或以其它方式節(jié)制。攻擊性文字識別器也可用于多種其它情形。例如,在社交網(wǎng)站,用戶能向其自己的“墻”設置帖子中用語的攻擊性閾值,同時也設置應用于自該社交網(wǎng)站呈現(xiàn)給該用戶的內容的個人攻擊性閾值。在另一示例中,在公共圖書館,一般的公共贊助人攻擊性閾值可設置為低閾值,而圖書管理員可被允許經(jīng)由更少限制閾值來設置更松的過濾器。在另一示例中,在大型多人在線角色本文檔來自技高網(wǎng)...
    使用加權字典和正規(guī)化來進行文字攻擊性檢測和處理的系統(tǒng)和方法

    【技術保護點】

    【技術特征摘要】
    【國外來華專利技術】2010.01.29 US 12/696,9911.一種用于文字攻擊性檢測和處理的方法,其包括:使用一個或多個處理器來接收多個攻擊性文字,其中在所述多個攻擊性文字中的每個相應攻擊性文字與標識該相應文字的攻擊性的嚴重性評分相關聯(lián);接收文字串,其中候選文字選自所述文字串;對于在所述多個攻擊性文字中的每個相應攻擊性文字,計算候選文字與所述相應攻擊性文字之間的距離;計算所述候選文字的多個攻擊性評分,所述多個攻擊性評分中的每個攻擊性評分基于(i)在所述候選文字與所述多個攻擊性文字中的攻擊性文字之間的所計算的距離和(ii)所述攻擊性文字的嚴重性評分;以及基于所述候選文字的多個攻擊性評分中的最高評分是否超過了攻擊性閾值來判斷所述候選文字是否為攻擊文字;其中,候選文字的攻擊性評分根據(jù)下式之一來計算:攻擊性評分=A*((B-C)/B);攻擊性評分=A*((B-(1/C)/B);攻擊性評分=Max(((A-C)/A),0);以及攻擊性評分=(((B-C)/B)>T);其中,A為在所述多個攻擊性文字中的攻擊性文字的嚴重性評分;B為所述攻擊性文字的長度;以及C為在所述候選文字與所述攻擊性文字之間的計算的距離;T為攻擊性閾值。2.根據(jù)權利要求1所述的方法,其特征在于,所述多個攻擊性文字中的每個文字和所述文字串中的每個文字包括簡寫。3.根據(jù)權利要求1所述的方法,其特征在于,所述距離被計算為:Levenshtein距離、Hamming距離、Damerau-Levenshtein距離、Dice系數(shù)、相似性指數(shù)、或Jaro-Winkler距離。4.根據(jù)權利要求1所述的方法,其特征在于,所述攻擊性閾值由服務管理員設置;其中所述文字串從用戶輸入到服務;以及其中如果在所述文字串中的候選文字由于具有超過所述服務管理員所設置的攻擊性閾值的攻擊性評分而被識別為攻擊文字,則拒絕自所述用戶到所述服務的輸入。5.根據(jù)權利要求4所述的方法,其特征在于,所述服務為內容評論入口,且其中所述攻擊性閾值基于下列之一來設置:其中存在被評論的內容的內容分組;所述攻擊性閾值相關聯(lián)的特定內容;以及內容的第三方內容分級。6.根據(jù)權利要求5所述的方法,其特征在于,所述內容分組包括主題的特定分類,類型,地理原產地,其中所述地理包括國家、州、城市、公國或者它們的區(qū)域或子區(qū)域的集合,專業(yè)或政府認證或分級的組、或行業(yè)節(jié)日或事件精選。7.根據(jù)權利要求4所述的方法,其特征在于,所述服務選自下列的組:留言板、內容評論入口、聊天室、電子布告欄系統(tǒng)、社交網(wǎng)站和多人游戲。8.根據(jù)權利要求1所述的方法,其特征在于:所述攻擊性閾值由服務用戶來設置;所述文字串為從所述服務到所述用戶的有意輸出;以及包含因攻擊性評分超過所述用戶設置的所述攻擊性閾值而被識別為攻擊文字的文字串在顯示給所述用戶之前被修改。9.根據(jù)權利要求8所述的方法,其特征在于,根據(jù)下列之一來修改所述文字串:刪除所述文字串使得所述文字串并不顯示給所述用戶;從所述文字串刪除所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶;刪改所述文字串使得所述文字串并不顯示給所述用戶;或者,從所述文字串刪改所述攻擊性文字使得所述攻擊性文字不顯示給所述用戶。10.根據(jù)權利要求8所述的方法,其特征在于,所述多個攻擊性文字和攻擊性閾值是基于對所述用戶所確定的文化規(guī)范來設置。11.根據(jù)權利要求8所述的方法,其特征在于,所述多個攻擊性文字和攻擊性閾值基于政府機構限定的定義來設置,所述政府機構對于用戶或者與所述用戶相關聯(lián)的非政府機構具有管轄權。12.根據(jù)權利要求8所述的方法,其特征在于,對于用戶設置最大攻擊性閾值,且其中所述用戶不能設置高于所述最大攻擊性閾值的攻擊性閾值。13.根據(jù)權利要求1所述的方法,其特征在于,包含因攻擊性評分超過所述攻擊性閾值而被識別為攻擊文字的文字串被拒絕輸入到系統(tǒng)內。14.根據(jù)權利要求1所述的方法,其特征在于,所述多個攻擊性文字和標識所述多個攻擊性文字中每一個的嚴重性評分由用戶、服務管理員、第三方或其任何組合來標識。15.根據(jù)權利要求1所述的方法,其特征在于,所述最高攻擊性評分為下列之一:比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最小值攻擊性評分;或者比較所述多個攻擊性文字中的每一個與所述候選文字而計算的最大值攻擊性評分。16.一種用于文字攻擊性檢...

    【專利技術屬性】
    技術研發(fā)人員:約瑟夫·L·斯皮爾斯,
    申請(專利權)人:因迪普拉亞公司,
    類型:
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 五月天无码在线观看| 国产Av激情久久无码天堂| 亚洲AV永久无码精品| 无码AV天堂一区二区三区| 亚洲熟妇无码爱v在线观看| 永久免费无码网站在线观看| 国产成人精品无码免费看 | 四虎成人精品国产永久免费无码 | 日韩少妇无码喷潮系列一二三| 国产成年无码久久久免费| 直接看的成人无码视频网站| 国产精品亚洲а∨无码播放| 国产成人无码av在线播放不卡| 69堂人成无码免费视频果冻传媒 | 人妻无码久久中文字幕专区| 精品人妻无码区二区三区| 亚洲av无码专区国产乱码在线观看| 深夜a级毛片免费无码| 亚洲Av无码国产一区二区| 日韩av无码中文字幕| 国产亚洲美日韩AV中文字幕无码成人| 亚洲日韩精品无码专区| 99精品人妻无码专区在线视频区 | 69堂人成无码免费视频果冻传媒| 亚洲精品无码专区久久久| 精品无码综合一区| 国产精品无码一区二区三区免费| 亚洲成在人线在线播放无码| 久久久久久久亚洲Av无码| 无码人妻精品一区二区三区99性| 无码AV中文字幕久久专区| 无码国内精品久久综合88| 色国产色无码色欧美色在线| 无码日本电影一区二区网站| 免费无码AV电影在线观看| 久久精品无码av| 国产V亚洲V天堂A无码| 亚洲中文久久精品无码| 色综合久久无码中文字幕| 97久久精品亚洲中文字幕无码| 精品日韩亚洲AV无码|