【技術實現步驟摘要】
獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統
本專利技術涉及機器翻譯領域,特別涉及一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統。
技術介紹
在機器翻譯中,使用的翻譯模型對翻譯質量有很大的影響,現有的機器翻譯方法中,不對待翻譯文本的類型進行區分,而采用相同的翻譯模型對各種類型的文本進行翻譯, 這會導致針對不同類型的文本,翻譯結果的質量出現較大差異的現象。例如英語中的“bank” 一詞,在經濟、金融領域的上下文中,應該翻譯成“銀行”,而在地理領域的上下文中,則應該翻譯為“河岸”。如果對這些情況不做區分,而采用同一種翻譯模型進行翻譯,就會降低翻譯的質量。
技術實現思路
本專利技術所要解決的技術問題是提供一種獲取語料的方法及裝置、生成翻譯模型的方法及系統、機器翻譯的方法及系統,以解決現有技術在對不同領域的文本進行翻譯時,翻譯精度不夠高的缺陷。本專利技術為解決技術問題而采用的技術方案是提供一種獲取語料的方法,包括將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料;采用聚類的方法, 將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練分類模型;使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。根據本專利技術之一優選實施例,所述聚類的方法為潛在概率語義分析方法。根據本專利技術 ...
【技術保護點】
一種獲取語料的方法,其特征在于,所述方法包括:將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料;從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料;采用聚類的方法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練分類模型;使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。
【技術特征摘要】
1.一種獲取語料的方法,其特征在于,所述方法包括 將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 從各個歸并語料中選擇長度超過設定閾值的歸并語料組成長語料; 采用聚類的方法,將相同領域的長語料聚為一類; 利用聚類得到的各領域的長語料訓練分類模型; 使用訓練后的分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。2.根據權利要求1所述的方法,其特征在于,所述聚類的方法為潛在概率語義分析方法。3.根據權利要求1所述的方法,其特征在于,對所述長語料進行聚類時采用的聚類特征包括對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。4.根據權利要求1所述的方法,其特征在于,所述分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。5.一種生成翻譯模型的方法,其特征在于,所述方法包括 采用權利要求1至4中任一權項所述方法獲取各領域的訓練語料; 使用各領域的訓練語料對翻譯模型進行訓練得到各領域翻譯模型。6.根據權利要求5所述的方法,其特征在于,所述方法進一步包括 將各領域的訓練語料合并后對翻譯模型進行訓練得到通用翻譯模型。7.一種機器翻譯方法,其特征在于,所述方法包括 A.使用第一分類模型對待翻譯文本進行分類,以確定所述待翻譯文本所屬領域,其中所述第一分類模型由各領域的訓練語料訓練得到; B.利用與所述待翻譯文本所屬領域對應的領域翻譯模型對所述待翻譯文本進行翻譯,其中所述領域翻譯模型由對應領域的訓練語料訓練得到。8.根據權利要求7所述的方法,其特征在于,所述第一分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。9.根據權利要求7所述的方法,其特征在于,所述步驟A進一步包括確定所述待翻譯文本歸屬于所述待翻譯文本所屬領域的概率并判斷該概率是否高于設定的第一閾值,如果是,則所述步驟B中,將與所述待翻譯文本所屬領域對應的領域翻譯模型與通用翻譯模型融合后對所述待翻譯文本進行翻譯,其中所述通用翻譯模型由各領域的訓練語料合并后訓練得到。10.根據權利要求7至9中任一權項所述的方法,其特征在于,各領域的訓練語料是采用下列方式得到的 將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 從各個歸并語料中選擇長度超過設定的第二閾值的歸并語料組成長語料; 采用聚類的方法,將相同領域的長語料聚為一類;利用聚類得到的各領域的長語料訓練第二分類模型; 使用訓練后的第二分類模型對所述雙語語料中的短語料進行分類,以確定所述短語料所屬領域,并將各領域的短語料與相同領域的長語料進行合并,得到各領域的訓練語料,其中所述短語料為所述雙語語料中除所述長語料之外的其他語料。11.根據權利要求10所述的方法,其特征在于,所述聚類的方法為潛在概率語義分析方法。12.根據權利要求10所述的方法,其特征在于,對所述長語料進行聚類時采用的聚類特征包括對所述長語料進行分詞后,各個詞語在所述長語料中出現的次數及各互譯詞對在所述長語料中出現的次數。13.根據權利要求10所述的方法,其特征在于,所述第二分類模型包括貝葉斯模型、支持向量機模型、K近鄰分類模型或最大熵模型。14.一種獲取語料的裝置,其特征在于,所述裝置包括 歸并單元,用于將雙語語料中來自相同頁面的雙語句對歸并為一組從而將所述雙語語料劃分為多個歸并語料; 選取單元,用于從各個歸并語...
【專利技術屬性】
技術研發人員:馬艷軍,吳華,王海峰,
申請(專利權)人:北京百度網訊科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。