• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統制造方法及圖紙

    技術編號:8593940 閱讀:191 留言:0更新日期:2013-04-18 07:06
    本發明專利技術提供了一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統,其中機器翻譯的系統包括:分類模塊,用于使用第一分類模型對待翻譯文本進行分類,以確定所述待翻譯文本所屬領域,其中所述第一分類模型由各領域的訓練語料訓練得到;翻譯模塊,用于利用與所述待翻譯文本所屬領域對應的領域翻譯模型對所述待翻譯文本進行翻譯,其中所述領域翻譯模型由對應領域的訓練語料訓練得到。通過上述方式,可以有效提高翻譯的精度。

    【技術實現步驟摘要】
    獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統
    本專利技術涉及機器翻譯領域,特別涉及一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統。
    技術介紹
    在機器翻譯中,使用的翻譯模型對翻譯質量有很大的影響,現有的機器翻譯方法中,不對待翻譯文本的類型進行區分,而采用相同的翻譯模型對各種類型的文本進行翻譯, 這會導致針對不同類型的文本,翻譯結果的質量出現較大差異的現象。例如英語中的“bank” 一詞,在經濟、金融領域的上下文中,應該翻譯成“銀行”,而在地理領域的上下文中,則應該翻譯為“河岸”。如果對這些情況不做區分,而采用同一種翻譯模型進行翻譯,就會降低翻譯的質量。
    技術實現思路
    本專利技術所要解決的技術問題是提供一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統,以解決現有技術在對不同領域的文本進行翻譯時,翻譯精度不夠高的缺陷。本專利技術為解決技術問題而采用的技術方案是提供一種獲取語料的方法,包括將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料;采用聚類的方法, 將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練分類模型;使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。根據本專利技術之一優選實施例,所述聚類的方法為潛在概率語義分析方法。根據本專利技術之一優選實施例,對所述長語料進行聚類時采用的聚類特征包括對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。根據本專利技術之一優選實施例,所述分類模型包括貝葉斯模型、支持向量機模型、K 近鄰分類模型或最大熵模型。本專利技術還提供了一種生成翻譯模型的方法,包括采用上述獲取語料的方法獲取各領域的訓練語料;使用各領域的訓練語料對翻譯模型進行訓練得到各領域翻譯模型。根據本專利技術之一優選實施例,所述方法進一步包括將各領域的訓練語料合并后對翻譯模型進行訓練得到通用翻譯模型。本專利技術還提供了一種機器翻譯方法,包括:A.使用第一分類模型對待翻譯文本進行分類,以確定所述待翻譯文本所屬領域,其中所述第一分類模型`由各領域的訓練語料訓練得到;B.利用與所述待翻譯文本所屬領域對應的領域翻譯模型對所述待翻譯文本進行 翻譯,其中所述領域翻譯模型由對應領域的訓練語料訓練得到。根據本專利技術之一優選實施例,所述第一分類模型包括貝葉斯模型、支持向量機模 型、K近鄰分類模型或最大熵模型。根據本專利技術之一優選實施例,所述步驟A進一步包括確定所述待翻譯文本歸屬于 所述待翻譯文本所屬領域的概率并判斷該概率是否高于設定的第一閾值,如果是,則所述 步驟B中,將與所述待翻譯文本所屬領域對應的領域翻譯模型與通用翻譯模型融合后對所 述待翻譯文本進行翻譯,其中所述通用翻譯模型由各領域的訓練語料合并后訓練得到。根據本專利技術之一優選實施例,各領域的訓練語料是采用下列方式得到的將雙語 語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 從各個歸并語料中選擇長度超過設定的第二閾值的歸并語料組成長語料;采用聚類的方 法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練第二分類模型; 使用訓練后的第二分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬 領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所 述短語料為所述雙語語料中除所述長語料之外的其他語料。根據本專利技術之一優選實施例,所述聚類的方法為潛在概率語義分析方法。根據本專利技術之一優選實施例,對所述長語料進行聚類時采用的聚類特征包括對 所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料 中出現的次數。根據本專利技術之一優選實施例,所述第二分類模型包括貝葉斯模型、支持向量機模 型、K近鄰分類模型或最大熵模型。本專利技術還提供了一種獲取語料的裝置,包括歸并單元,用于將雙語語料中來自相 同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;選取單元,用于 從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料;聚類單元,用于采用聚 類的方法,將相同領域的長語料聚為一類;訓練單元,用于利用聚類得到的各領域的長語料 訓練分類模型;分類單元,用于使用訓練后的分類模型對所述雙語語料中的短語料進行分 類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到 各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。根據本專利技術之一優選實施例,所述聚類單元采用潛在概率語義分析方法對所述長 語料進行聚類。根據本專利技術之一優選實施例,所述聚類單元對所述長語料進行聚類時采用的聚類 特征包括對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對 在所述長語料中出現的次數。根據本專利技術之一優選實施例,所述分類模型包括貝葉斯模型、支持向量機模型、K 近鄰分類模型或最大熵模型。本專利技術還提供了一種生成翻譯模型的系統,包括上文所述的獲取語料的裝置,用 于獲取各領域的訓練語料;以及,領域模型生成模塊,用于使用各領域的訓練語料對翻譯模 型進行訓練得到各領域翻譯模型。根據本專利技術之一優選實施例,所述系統進一步包括通用模型生成模塊,用于將各領域的訓練語料合并后對翻譯模型進行訓練得到通用翻譯模型。本專利技術還提供了一種機器翻譯系統,包括分類模塊,用于使用第一分類模型對待翻譯文本進行分類,以確定所述待翻譯文本所屬領域,其中所述第一分類模型由各領域的訓練語料訓練得到;翻譯模塊,用于利用與所述待翻譯文本所屬領域對應的領域翻譯模型對所述待翻譯文本進行翻譯,其中所述領域翻譯模型由對應領域的訓練語料訓練得到。根據本專利技術之一優選實施例,所述第一分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。根據本專利技術之一優選實施例,所述分類模塊進一步用于確定所述待翻譯文本歸屬于所述待翻譯文本所屬領域的概率并判斷該概率是否高于設定的第一閾值,如果是,則所述翻譯模塊將與所述待翻譯文本所屬領域對應的領域翻譯模型與通用翻譯模型融合后對所述待翻譯文本進行翻譯,其中所述通用翻譯模型由各領域的訓練語料合并后訓練得到。根據本專利技術之一優選實施例,所述系統進一步包括語料獲取模塊,用于得到各領域的訓練語料,其中所述語料獲取模塊包括歸并單元,用于將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;選取單元,用于從各個歸并語料中選擇長度超過設定的第二閾值的歸并語料組成長語料;聚類單元,用于采用聚類的方法,將相同領域的長語料聚為一類;訓練單元,用于利用聚類得到的各領域的長語料訓練第二分類模型;分類單元,用于使用訓練后的第二分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。根據本專利技術之一優選實施例,所述聚類單元本文檔來自技高網...

    【技術保護點】
    一種獲取語料的方法,其特征在于,所述方法包括:將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料;采用聚類的方法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練分類模型;使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。

    【技術特征摘要】
    1.一種獲取語料的方法,其特征在于,所述方法包括 將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料; 采用聚類的方法,將相同領域的長語料聚為一類; 利用聚類得到的各領域的長語料訓練分類模型; 使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。2.根據權利要求1所述的方法,其特征在于,所述聚類的方法為潛在概率語義分析方法。3.根據權利要求1所述的方法,其特征在于,對所述長語料進行聚類時采用的聚類特征包括對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。4.根據權利要求1所述的方法,其特征在于,所述分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。5.一種生成翻譯模型的方法,其特征在于,所述方法包括 采用權利要求1至4中任一權項所述方法獲取各領域的訓練語料; 使用各領域的訓練語料對翻譯模型進行訓練得到各領域翻譯模型。6.根據權利要求5所述的方法,其特征在于,所述方法進一步包括 將各領域的訓練語料合并后對翻譯模型進行訓練得到通用翻譯模型。7.一種機器翻譯方法,其特征在于,所述方法包括 A.使用第一分類模型對待翻譯文本進行分類,以確定所述待翻譯文本所屬領域,其中所述第一分類模型由各領域的訓練語料訓練得到; B.利用與所述待翻譯文本所屬領域對應的領域翻譯模型對所述待翻譯文本進行翻譯,其中所述領域翻譯模型由對應領域的訓練語料訓練得到。8.根據權利要求7所述的方法,其特征在于,所述第一分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。9.根據權利要求7所述的方法,其特征在于,所述步驟A進一步包括確定所述待翻譯文本歸屬于所述待翻譯文本所屬領域的概率并判斷該概率是否高于設定的第一閾值,如果是,則所述步驟B中,將與所述待翻譯文本所屬領域對應的領域翻譯模型與通用翻譯模型融合后對所述待翻譯文本進行翻譯,其中所述通用翻譯模型由各領域的訓練語料合并后訓練得到。10.根據權利要求7至9中任一權項所述的方法,其特征在于,各領域的訓練語料是采用下列方式得到的 將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 從各個歸并語料中選擇長度超過設定的第二閾值的歸并語料組成長語料; 采用聚類的方法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練第二分類模型; 使用訓練后的第二分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。11.根據權利要求10所述的方法,其特征在于,所述聚類的方法為潛在概率語義分析方法。12.根據權利要求10所述的方法,其特征在于,對所述長語料進行聚類時采用的聚類特征包括對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。13.根據權利要求10所述的方法,其特征在于,所述第二分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。14.一種獲取語料的裝置,其特征在于,所述裝置包括 歸并單元,用于將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 選取單元,用于從各個歸并語...

    【專利技術屬性】
    技術研發人員:馬艷軍吳華王海峰
    申請(專利權)人:北京百度網訊科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品人妻无码一区二区三区蜜桃一| 少妇无码一区二区二三区| 免费人妻av无码专区| 精品人妻无码专区中文字幕| 亚洲中文字幕无码日韩| 免费无码不卡视频在线观看| 人妻丰满熟妇无码区免费| 国产午夜av无码无片久久96| 免费无码中文字幕A级毛片| 亚洲AⅤ永久无码精品AA| 无码av免费一区二区三区试看| 无码aⅴ精品一区二区三区| 亚洲AV日韩AV高潮无码专区| 国产精品无码aⅴ嫩草| 精品久久久久久无码不卡| 亚洲AV无码专区电影在线观看| 一本大道久久东京热无码AV | 2024你懂的网站无码内射| 精品无码一区二区三区水蜜桃| 91嫩草国产在线无码观看| 精品无码人妻一区二区三区品| 亚洲av无码专区国产乱码在线观看 | 亚洲精品无码久久一线| 特级无码毛片免费视频| 成人免费无码大片a毛片 | 无码粉嫩虎白一线天在线观看| 91精品久久久久久无码| 67194成l人在线观看线路无码| 亚洲AV无码国产精品色| 人妻无码中文久久久久专区| 久久无码无码久久综合综合 | 无码少妇一区二区| 成人A片产无码免费视频在线观看| 成年男人裸j照无遮挡无码| 色欲AV永久无码精品无码| 无码精品不卡一区二区三区| 国产精品va无码二区| 无码高潮少妇毛多水多水免费| 免费无码国产在线观国内自拍中文字幕| 色综合无码AV网站| 日韩精品无码免费专区午夜 |