• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    標記輔助設備、方法和程序技術

    技術編號:8532850 閱讀:259 留言:0更新日期:2013-04-04 15:52
    本發明專利技術涉及標記輔助設備、方法和程序。根據一個實施例,一種標記輔助設備(200)包括獲取單元(205)、第一計算單元(208)、檢測單元(207)和展示單元(210)。所述獲取單元(205)獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理。所述第一計算單元(208)針對各個字符串計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差。所述檢測單元(207)檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差。所述展示單元(210)展示所述第一候選項。

    【技術實現步驟摘要】

    本文中描述的實施例一般而言涉及標記(markup)輔助設備、方法和程序。
    技術介紹
    手動標記整個大規模的、非結構化的文本數據項(例如電子書)是很困難的。使用機器學習技術,標記處理可被自動化。然而,很難無任何錯誤地執行自動標記處理。特別地,在文本轉語音(text-to-speech)控制中使用的標簽(tag)(韻律、感情、講話者等)對于各個用戶來說通常是不同的,且沒有唯一正確的答案。因此,由于依賴于用戶的主觀觀點和偏好而使判斷會有波動,標記處理的負載變重。
    技術實現思路
    在一個方面中,提供一種標記輔助設備,其特征在于包括獲取單元,其被配置為獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值;第一計算單元,其被配置為針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差;檢測單元,其被配置為檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差;以及展示單元,其被配置為展示所述第一候選項。在另一個方面中,提供一種標記輔助方法,其特征在于包括獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值;針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差;檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差;以及展示所述第一候選項。在又一個方面中,提供一種非臨時性(non-transitory)計算機可讀介質,其包括計算機可執行指令,其特征在于,當由處理器執行時,所述指令使得所述處理器執行包括以下的方法獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值;針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差;檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差;以及展示所述第一候選項。附圖說明圖1是示例出電子書朗讀(read)服務系統的示意圖;圖2是示例出根據實施例的標記輔助設備的框圖;圖3是示例出在共享標記文本存儲部中存儲的共享標記文本數據項的實例的表;圖4是示例出標記輔助系統的操作的流程圖;圖5是示例出修正候選項(correction candidate)和標簽候選項(tagcandidate)的展示(presentation)處理的流程圖;圖6A示例出標簽間距離的概念圖;圖6B示例出標簽和對應的特征量的表;圖7是示例出在方差(variation)計算之后共享標記文本數據項的實例的表;圖8是示例出用于各個句子ID的方差的實例的圖;圖9是示例出修正信息展示單元的第一顯示實例的圖;圖10是示例出標簽候選項展示處理的流程圖;圖11是示例出當新用戶分配(assign)標簽時共享標記文本數據項的實例的表;圖12是示例出通過標簽候選項計算單元的用戶間距離計算處理的實例的表;圖13是示例出修正信息展示單元的第二顯示實例的圖;以及圖14是示例出管理服務器和用戶終端的硬件設置的框圖。具體實施例方式在文檔的自動文本轉語音處理中,可使用語音合成標記語言(SSML)通過標記文本數據項來調整朗讀時的音高、語速(pitch)、音量等。在這種情況下,標記處理意味著通過被稱作標簽的字符串而部分地圍住文本數據項。標簽是包括字符串的符號,被用于獲得對由SSML代表的標記語言定義的句子的音高、語速、音量、說話風格、感情、講話者等等的文本轉語音控制。例如,在標記結果[因為你〈重讀 > 很聰明〈/重讀 >,你會一次通過入學考試。]([You,11 pass the entrance exam on your first try becauseyou’ re<emphasis>smart</emphasis>.])中,被〈重讀 > (〈emphasis〉)標簽圍住的部分[很聰明]([smart])被重讀。注意被標簽圍住的字符串不限于單詞,而可以是諸如短語和句子的字符串。該實施例的以下描述將在如下假設下給出標簽被分配給[句子],[句子]作為標簽將被分配的基本單位。此外,SSML具有朗讀標記部分并同時改變其諸如對話風格、警告風格等的說話風格的功能,有感情(喜怒哀樂)地朗讀標記部分的功能,以及在改變說話者(聲音)的同時閱讀標記部分的功能。利用這些功能,由于句子可被讀得更生動,嘗試應用于合成語音的自動朗讀。作為標記輔助方法,公知例如一種通過來自由手動地且部分地標記文本數據項以及自動地標記未知文本數據項而準備的學習語料庫(corpus)的機器學習方法來學習模型的技術。更具體地,已知一種用于從文本數據項推定感情并自動分配感情標簽的感情推定技術。除了文本轉語音的標記處理,還已知用于標記每個單詞的詞性(part-of-speech)的詞性標記處理、用于標記諸如標題、正文文本、廣告等的文本結構的結構標記處理等等。而且,已知一種基于文本內容和布局相似性的輔助結構標記處理的技術。然而,利用上述現有技術,需要努力手動標記文本數據項。相反地,自動標記處理不能根據用戶的主觀觀點和偏好來標記文本數據項。一般而言,根據一個實施例,一種標記輔助設備包括獲取單元、第一計算單元、檢測單元和展示單元。所述獲取單元被配置為獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值。所述第一計算單元被配置為針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差。所述檢測單元被配置為檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差。所述展示單元被配置為展示所述第一候選項。下文中將參考附圖描述根據本實施例的標記輔助設備、方法和程序。注意由相同的參考標號指示的部件執行相同的操作,且根據需要,將省略對其的重復描述。以下將參考圖1描述根據本實施例的使用標記輔助設備的標記輔助系統的使用實例。圖1示例出作為標記輔助系統的實例而提供的電子書(e-book)朗讀服務系統。標記輔助系統100包括管理服務器101以及用戶終端Α102-1、Β102-2和C102-3。管理服務器101將標簽分配給電子書151的句子以產生標記文檔152 (以下稱為標記文本數據項152)。作為標簽,在圖1的實例中使用〈憤怒> (〈angry〉)和〈害怕> (〈fear〉)標簽,其意味著被標簽圍住的句子用“憤怒”和“害怕”的感情來讀出。注意下文中,有標簽的文本數據項被稱為標記文本數據項。用戶終端A102-1到C102-3中的每一個將請求信號發送到管理服務器101以下載標記文本數據項152。管理 服務器101接收該請求信號,并將標記文本數據項本文檔來自技高網...

    【技術保護點】
    一種標記輔助設備,其特征在于包括:獲取單元,其被配置為獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值;第一計算單元,其被配置為針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差;檢測單元,其被配置為檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差;以及展示單元,其被配置為展示所述第一候選項。

    【技術特征摘要】
    2011.09.26 JP 209849/20111.一種標記輔助設備,其特征在于包括 獲取單元,其被配置為獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值; 第一計算單元,其被配置為針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差; 檢測單元,其被配置為檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差;以及展示單元,其被配置為展示所述第一候選項。2.根據權利要求1所述的設備,其特征在于還包括第二計算單元,所述第二計算單元被配置為基于由各個用戶分配給每個字符串的標簽的所述特征量而計算指示所述用戶間的相似程度的第二相似度,并基于由其第二相似度不小于第二閾值的第一用戶分配的標簽而選擇第二候選項,所述第二候選項指示將被分配給所述第一候選項的標簽的候選項, 其中展示單元還展示所述第二候選項。3.根據權利要求1所述的設備,其特征在于還包括標簽分配單元,所述標簽分配單元被配置為基于由至少一個用戶編輯的所述標記文本而將所述標簽分配給所述字符串。4.根據權利要求1所述的設備,其特征在于,所述獲取單元根據指令信號而改變所述第一相似度。5.根據權利要求2所述的設備,其特征在于,所述展示單元展示彼此關聯的所述第二候選項和所述第一候選項。6.根據權利要求2所述的設備,其特征在于,所述第二計算單元通過合并多個第二候選項而生成新標簽。7.—種標記輔助方法,其特征在于包括 獲取各個標簽的特征量,每個標簽被用于控制標記文本的文本轉語音處理,所述標記文本包括被分配有至少一個標簽的字符串,所述特征量是用于定義指示標簽間的相似程度的第一相似度的值; 針對各個字符串,計算在標記文本中被分配給所述字符串的所述標簽的特征量的方差; 檢測被分配有第一標簽的第一字符串作為包括要被修正的標簽的第一候選項,所述第一標簽具有不小于第一閾值的方差;以及展示所述第一候選項。8.根據權利要求7所述的方法,其特征在于還包括基于由各個用戶分配給每個字符串的標簽的所述特征量而計算指示所述用戶間的相似程度的第二...

    【專利技術屬性】
    技術研發人員:森纮一郎森田真弘
    申請(專利權)人:株式會社東芝
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一本大道无码日韩精品影视| 亚洲AV无码一区二区三区国产 | 三上悠亚ssⅰn939无码播放| 四虎成人精品国产永久免费无码| 中国无码人妻丰满熟妇啪啪软件 | 中文字幕无码无码专区| 亚洲国产精品无码久久久| 精品无码久久久久久久动漫| 久久AV高潮AV无码AV| 潮喷失禁大喷水无码| aⅴ一区二区三区无卡无码| 无码人妻精品一区二区三区99性| 少妇无码太爽了在线播放| 精品无码久久久久久久久水蜜桃| 久久久久亚洲AV无码观看| 亚洲精品午夜无码专区| 东京热人妻无码人av| 免费VA在线观看无码| 亚洲精品av无码喷奶水糖心| 久久久久久国产精品无码超碰| 亚洲色无码一区二区三区| 一本色道无码道在线观看| 免费人妻av无码专区| 国产精品亚洲专区无码牛牛| 亚洲国产成人精品无码区在线网站| 熟妇人妻中文av无码| AV无码小缝喷白浆在线观看| 亚洲av无码无线在线观看| 精品亚洲A∨无码一区二区三区| 亚洲国产精品无码久久SM| 国产成人AV一区二区三区无码| 三上悠亚ssⅰn939无码播放| 国产精品无码专区在线观看| 成人av片无码免费天天看| 日韩av无码中文无码电影| 亚洲va中文字幕无码| 夜夜添无码试看一区二区三区| 亚洲色中文字幕无码AV| 无码专区中文字幕无码| 精品亚洲A∨无码一区二区三区 | 免费无码又爽又刺激毛片|