本發明專利技術公開了一種機器輔助網頁翻譯系統,包括接收網頁模塊、讀取網頁模塊以及翻譯網頁模塊,所述接收網頁模塊通過解析器對網頁進行解析獲得文件對象模型,所述讀取網頁模塊讀取所述文件對象模型,所述翻譯網頁模塊對網頁進行翻譯、建庫、術語管理以及雙向互譯和排版。該系統可以有效消除譯者的重復勞動,從而提高工作效率。
【技術實現步驟摘要】
本專利技術涉及一種機器輔助網頁翻譯方法及其系統。
技術介紹
網頁翻譯系統的譯準率長期徘徊在70%左右,譯文的可讀性、系統對語言現象的覆蓋面、系統的魯棒性尤其是開放性都不盡人意。社會迫切需要對真實文本(尤其是網上海量文本)進行大規模的處理,而網頁翻譯系統同當今社會對大規模真實文本處理的期望相差甚遠。機器輔助翻譯(Computer Aided Translation,簡稱CAT)的思想就是在這樣的背景下產生的。與全自動機器翻譯系統相比較,機器輔助翻譯系統是一種人機交互式系統。在這種翻譯模式中,計算機負責輔助翻譯人員的任務,不僅給翻譯人員提供一些詞匯、術語、短語翻譯的知識,而且從已翻譯過文本中查找相同或相似語句的譯文,使翻譯人員避免不必要的重復勞動,進行高效率的翻譯工作。計算機輔助翻譯的重要思想(包括基于翻譯記憶技術和基于實例模式的翻譯技術)是在翻譯記憶庫(雙語對齊庫)和實例模式庫中 搜索相同或相似的句子或短語,給出參考譯文。翻譯人員充分利用已有的翻譯資源,盡量避免重復勞動。這種輔助翻譯機制特別適合于科技專著、科技文獻、產品說明書、使用手冊、聯合國文件等這種篇幅長、重復語言現象較多的文本類型的翻譯,能幫助翻譯人員消除重復的翻譯勞動,只需專注于新內容的翻譯。機器翻譯記憶庫技術的機器輔助翻譯軟件基于這樣一個簡單的事實由于專業翻譯領域所涉及的翻譯資料數量巨大,而范圍相對狹窄,集中于某個或某幾個專業,如政治、經濟、軍事、航天、計算機、通訊等專業都有自己的專業翻譯公司或部門。這就必然帶來翻譯資料的不同程度的重復。據統計,在不同行業和部門,這種資料的重復率達到209Γ70%不等。這就意味著譯者至少有20%以上的工作是無謂的重復勞動。翻譯記憶技術就是從這里著手,首先致力于消除譯者的重復勞動,從而提高工作效率。網頁翻譯功能是指在不改變網頁格式的前提下,將瀏覽器顯示的網頁上的語言文字翻譯成使用者所需要的語言文字。目前常見的網頁翻譯技術多是針對以超文字標記語言(Hyper Text Markup Language, HTML)所寫成的網頁進行翻譯,其原理系先取得網頁之源文件(也就是HTML檔)的內容,之后尋找網頁中需要翻譯的文字(即HTML卷標之間的文字)進行翻譯,然后將翻譯的結果替代原文,并生成新的網頁,再指示瀏覽器顯示新生成的網頁。
技術實現思路
為了克服上述
技術介紹
中的不足之處,本專利技術提供一種機器輔助網頁翻譯系統,包括接收網頁模塊、讀取網頁模塊以及翻譯網頁模塊,所述的翻譯網頁模塊通過以下幾個步驟實現第一步,翻譯過程,在翻譯新句子的時候,搜索翻譯記憶庫,對該句和記憶庫中翻譯單元進行對比和匹配,挑出原文最接近的翻譯單元,給出參考譯文;第二步,自動建庫,自動分析和匹配原文和譯文,以句子為單位將原文和譯文一一對應然后自動生成一個標準的翻譯記憶庫文件,用戶所有的資料都可以通過該工具得到回收;第三步,術語管理。對所有的術語進行規范,一次性建立一個或多個標準術語列表,在使用翻譯記憶系統翻譯時,打開術語管理工具中相應的術語列表,會自動識別出當前句子中有哪些詞是已定義的術語,并給出標準的術語譯文; 第四步,多語種之間進行雙向互譯; 第五步,自動排版,譯文自動套用原文的格式,進行自動排版。根據一種采用上述方法的機器輔助網頁翻譯系統,其包括接收網頁模塊、讀取網頁模塊以及翻譯網頁模塊,所述接收網頁模塊通過解析器對網頁進行解析獲得文件對象模型,所述讀取網頁模塊讀取所述文件對象模型,所述翻譯網頁模塊對網頁進行翻譯、建庫、術語管理以及雙向互譯和排版。附圖說明為了更清楚地說明本專利技術實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見,下面描述中的附圖僅僅是本專利技術的部分實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它附圖。圖1示出了根據本專利技術的網頁翻譯流程。具體實施例方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。根據本專利技術的一個實施例,如圖1所示,一個機器輔助網頁翻譯系統包括接收網頁模塊、讀取網頁模塊以及翻譯網頁模塊,所述接收網頁模塊通過解析器對網頁進行解析獲得文件對象模型,所述讀取網頁模塊讀取所述文件對象模型,所述翻譯網頁模塊對網頁進行翻譯、建庫、術語管理以及雙向互譯和排版。在接收到網頁后,會由解析器對此網頁進行解析而取得文件對象模型,此文件對象模型即儲存在接收模塊中。在本實施例中,解析器是與一般瀏覽器內建的解析器(如微軟的MSXML)相似。讀取模塊是用以讀取文件對象模型的文字節點中的第一語言文字,并將其輸出至翻譯模塊。其中,讀取模塊是以指令碼(script)或程序來讀取文件對象模型中的信息,如Java script、VB script或是PHP等程序語言。其中的翻譯網頁通過以下幾個步驟實現翻譯過程、自動建庫、術語管理、多語種間雙向互譯以及自動排版 第一步,翻譯過程,在翻譯新句子的時候,搜索翻譯記憶庫,對該句和記憶庫中翻譯單元進行對比和匹配,挑出原文最接近的翻譯單元,給出參考譯文; 第二步,自動建庫,自動分析和匹配原文和譯文,以句子為單位將原文和譯文一一對應然后自動生成一個標準的翻譯記憶庫文件,用戶所有的資料都可以通過該工具得到回收; 第三步,術語管理。對所有的術語進行規范,一次性建立一個或多個標準術語列表,在使用翻譯記憶系統翻譯時,打開術語管理工具中相應的術語列表,會自動識別出當前句子中有哪些詞是已定義的術語,并給出標準的術語譯文; 第四步,多語種之間進行雙向互譯; 第五步,自動排版,譯文自動套用原文的格式,進行自動排版。具體描述為 翻譯記憶產品會自動記憶住用戶翻譯的每一句翻譯,在翻譯新句子的時候,搜索翻譯記憶庫,對該句和記憶庫中翻譯單元進行對比和匹配,挑出原文最接近的翻譯單元,給出參考譯文。用戶可以接受該譯文,也可以做一些修改,修改后的新譯文會自動存入記憶庫,供以后使用。由于專業領域詞匯和句式相對固定,當用戶積累了多個有一定規模的記憶庫后,遇到的重復句子會越來越多,翻譯工作也變得越來越輕松。一般的翻譯記憶產品還都支持網絡共享記憶庫功能。也就是說,當多人同時進行翻譯時,可以通過局域網共享一個翻譯記憶庫,每個在線的翻譯人員都可以實時地調用他人的工作成果。對于在使用翻譯記憶產品前,已經積累了大量翻譯資料的用戶,翻譯記憶產品會提供一個自動建庫工具。該工具能自動分析和匹配原文和譯文,以句子為單位將原文和譯文一一對應。用戶做完一些調整和校對之后,該工具會自動生成一個標準的翻譯記憶庫文件。用戶所有的資料都可以通過該工具得到回收,從而高效、快捷地建立起翻譯記憶庫。這些庫在不斷的使用過程中,又會得到進一步補充和完善。翻譯記憶產品一般還提供一個非常重要的功能是術語管理。對于專業
來說,幾乎每篇文檔都帶有大量的專業術語,術語譯文的前后一致,始終是校對的重要內容之一。這項工作費時費力,還難保會有疏漏。翻譯記憶產品通過一個術語管理工具(一般是電子辭典),來規范所有本文檔來自技高網...
【技術保護點】
一種機器輔助網頁翻譯方法,其特征在于包括以下幾個步驟:第一步,翻譯過程,在翻譯新句子的時候,搜索翻譯記憶庫,對該句和記憶庫中翻譯單元進行對比和匹配,挑出原文最接近的翻譯單元,給出參考譯文;第二步,自動建庫,自動分析和匹配原文和譯文,以句子為單位將原文和譯文一一對應然后自動生成一個標準的翻譯記憶庫文件,用戶所有的資料都可以通過該工具得到回收;第三步,術語管理,對所有的術語進行規范,一次性建立一個或多個標準術語列表,在使用翻譯記憶系統翻譯時,打開術語管理工具中相應的術語列表,會自動識別出當前句子中有哪些詞是已定義的術語,并給出標準的術語譯文;第四步,多語種之間進行雙向互譯;第五步,自動排版,譯文自動套用原文的格式,進行自動排版。
【技術特征摘要】
1.一種機器輔助網頁翻譯方法,其特征在于包括以下幾個步驟 第一步,翻譯過程,在翻譯新句子的時候,搜索翻譯記憶庫,對該句和記憶庫中翻譯單元進行對比和匹配,挑出原文最接近的翻譯單元,給出參考譯文;第二步,自動建庫,自動分析和匹配原文和譯文,以句子為單位將原文和譯文一一對應然后自動生成一個標準的翻譯記憶庫文件,用戶所有的資料都可以通過該工具得到回收;第三步,術語管理,對所有的術語進行規范,一次性建立一個或多個標準術語列表,在使用翻譯記憶系統翻譯時,打開術語管理...
【專利技術屬性】
技術研發人員:宗競,
申請(專利權)人:江蘇樂買到網絡科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。