• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    中間語系統(tǒng)、中間語引擎、中間語翻譯系統(tǒng)和相應(yīng)方法技術(shù)方案

    技術(shù)編號(hào):7627846 閱讀:204 留言:0更新日期:2012-08-01 21:11
    本發(fā)明專利技術(shù)提供了一種中間語系統(tǒng),其用一種機(jī)器可讀的統(tǒng)一中間語編碼來代表自然語言,該系統(tǒng)包括中間語詞庫模塊和中間語句型庫模塊,在兩個(gè)模塊中分別對(duì)詞和子句進(jìn)行編碼。本發(fā)明專利技術(shù)還提供了一種使用中間語系統(tǒng)的中間語翻譯引擎、中間語方式的機(jī)器翻譯系統(tǒng)和上述各系統(tǒng)所對(duì)應(yīng)的方法。在本發(fā)明專利技術(shù)中,由于使用了單一的中間語系統(tǒng),不僅自然語言處理過程中的語言標(biāo)準(zhǔn)問題得以解決,還大大地縮減了翻譯軟件開發(fā)成本,簡化了翻譯軟件的構(gòu)架。本發(fā)明專利技術(shù)還可以成為開發(fā)各種自然語言處理方面的應(yīng)用軟件和器具的基礎(chǔ)。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及到自然語言的處理、解析和翻譯,特別涉及到一種中間語系統(tǒng)、中間語的文本轉(zhuǎn)換系統(tǒng)、中間語方式的機(jī)器翻譯系統(tǒng)和上述各系統(tǒng)所對(duì)應(yīng)的方法。
    技術(shù)介紹
    本專利技術(shù)的最主要應(yīng)用是機(jī)器翻譯(MT)。一般的機(jī)器翻譯采取的是直接轉(zhuǎn)換法,就是將A語種的原文本輸入計(jì)算機(jī)后,通過一個(gè)從A語種到B語種的翻譯程序,轉(zhuǎn)換成B語種的翻譯文本。而用本專利技術(shù)的中間語方式,則是將A語種的原文本,先通過本專利技術(shù)的計(jì)算機(jī)中間語文本轉(zhuǎn)換系統(tǒng)(稱為中間語引擎)的A語種輸入模組(即將A語種轉(zhuǎn)換為中間語的程序),解析成中間語文本,然后再通過中間語引擎的另一 B語言的輸出模組(即從中間語生成B語種的程序),而從該中間語文本生成B語言的翻譯文本。前者是直接轉(zhuǎn)換,后者是間接轉(zhuǎn)換。雖然是直接與間接的一字之差,而后者的優(yōu)點(diǎn)卻是前者所不可比擬的。先從最直觀的數(shù)量上來看如果有N個(gè)語種要互譯,前者要編制N(N-I)個(gè)語種間翻譯轉(zhuǎn)換程序,后者不編制語種間翻譯轉(zhuǎn)換程序,而是編制語種與共同的中間語之間的轉(zhuǎn)換程序,所以只要編制2N個(gè)這樣的程序。當(dāng)N大于3時(shí),后者的數(shù)量就少于前者。事實(shí)上,間接轉(zhuǎn)換方法在翻譯轉(zhuǎn)換程序(即輸入模組和輸出模組,統(tǒng)稱模組)數(shù)量上的優(yōu)勢(shì)是其眾多優(yōu)勢(shì)中最小的一個(gè)。其最大的優(yōu)勢(shì)在于,各語種同中間語之間的模組是獨(dú)立于其他語種而編制的。顯然,這種編制方法所帶來的優(yōu)點(diǎn)之一是,開發(fā)各語種同中間語之間的模組的人員,理論上只要精通母語就可;優(yōu)點(diǎn)之二是,所有語言的“共同”部分已經(jīng)編入核心的中間語引擎,各語種在這部分的開發(fā)就標(biāo)準(zhǔn)化了一實(shí)現(xiàn)這一點(diǎn)是機(jī)器翻譯上的巨大跨越,也是對(duì)時(shí)間、物力、人力、資金的巨大節(jié)省,更是理論方面的突破。優(yōu)點(diǎn)之三是,中間語既是各語種的共同代表,并且是計(jì)算機(jī)形式的語言代表,而語種的文本則經(jīng)過中間語引擎轉(zhuǎn)換成這種共同的計(jì)算機(jī)形式的文本,因此各語種的自然語言處理也就水到渠成。機(jī)器翻譯是自然語言處理(NLP)這門學(xué)科或技術(shù)的一個(gè)分支,是一個(gè)主要分支,也就是說,機(jī)器翻譯(中間語引擎)的技術(shù)是解決自然語言處理其他分支的最后關(guān)鍵技術(shù)。換句話說,機(jī)器翻譯的技術(shù)完善后,就可以幫助其它分支達(dá)到完善化。機(jī)器翻譯是自然語言處理方面最早被提出來的項(xiàng)目或?qū)W科,兒乎可以說是與電子計(jì)算機(jī)的專利技術(shù)同步的。機(jī)器翻譯又是自然語言處理方面迄今仍未被完全(即全自動(dòng),F(xiàn)ully Automatic)和真正(即高質(zhì)量,High Quality)解決的一門難題、項(xiàng)目或?qū)W科。全自動(dòng)、高質(zhì)量(FAHQ)就是機(jī)器翻譯界夢(mèng)寐以求的目標(biāo)。其次,中間語方式的提出也幾乎是與機(jī)器翻譯研究的開始同步的。不幸的是,六十多年過去,無論是機(jī)器翻譯或中間語方式,都沒有出現(xiàn)突破式的進(jìn)展。由于人工翻譯的耗時(shí)費(fèi)力、成本昂貴、人才缺乏、不規(guī)范、不保密等原因,全世界有能力的國際組織、國家、機(jī)構(gòu)、院校、企業(yè),都投入了大量人力物力和資金來研發(fā)機(jī)器翻譯, 有關(guān)的資料、方法、理論、實(shí)踐,見之于文獻(xiàn)的更是汗牛充棟。參考之一如2004年12月中國對(duì)外翻譯出版公司出版的馮志偉著《機(jī)器翻譯研究》。關(guān)于中間語方面,不僅沒有突破,并且不見什么進(jìn)展,甚至在其定義上也存在不同說法。有的認(rèn)為是一種嚴(yán)格的符號(hào),有的認(rèn)為是像世界語(Esperanto)那樣新造的一個(gè)人造語言,有的認(rèn)為是電子計(jì)算機(jī)的程序,等等。在各國的專利中,雖然有很多專利提到中間語(interlingua) —詞,但其內(nèi)容沒有一件與本節(jié)第一段的表述相近,尤其在以下三個(gè)方面(1)中間語是“共同”的,只有一個(gè);⑵各語種通過其輸入模組和輸出模組與中間語轉(zhuǎn)換,‘獨(dú)立’于其他語種之外;(3) “存在” 一個(gè)中間語“文本”,換句話說,一個(gè)文本解析成中間語‘文本’后,其他語種文本的生成就都通過這個(gè)中間語文本。在有關(guān)機(jī)器翻譯的美國專利中,最靠近中間語方式的一件是專利號(hào)6275689 (Moser, et al. 2001年8月14日),但其使用的連接性可選擇語言_ (LAL)是每個(gè)語種自身的“強(qiáng)化”語言,不是共同的中間語。雖然該專利在其說明中也提到了近似中間語的詞,例如“核心語言” (PL)、“國際輔助語言”(IAL)、“通用中間語言”,但是無論是其權(quán)利要求或具體實(shí)施方式,它們都沒有滿足上述“共同”、“獨(dú)立”、“存在”的三個(gè)要求。事實(shí)上,從其說明中可看出,其實(shí)際上是在用英語的LAL來充當(dāng)這個(gè)IAL的角色。另外 ,從其權(quán)利要求2中可知,其采用的翻譯方法實(shí)際上是人機(jī)互動(dòng)的方式,并不是全自動(dòng)方式。最后,也是最重要的一點(diǎn),該專利基本上沒有討論排歧問題或提出解決方法,而這是整個(gè)機(jī)器翻譯難題的核心所在。從上述專利反映了一個(gè)基本的事實(shí)自然語言處理的基本問題是語言的解析一解析的越徹底,語言的處理也越完善。正是在解析方面,該專利用概略的方式,避開了這個(gè)問題。可以這么說,徹底解析后的語言就是、并且才是中間語。而中間語也正是解析語言的方向和目標(biāo)。下面就從這個(gè)角度說明本專利技術(shù)提出的解決方法。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的就是為了解決上述技術(shù)問題,提供了一種中間語系統(tǒng),其用一種機(jī)器可讀的統(tǒng)一中間語編碼來代表自然語言,其包括中間語詞匯模塊和中間語句型模塊a.所述中間語詞匯模塊由詞庫構(gòu)成,所述詞庫是各種詞性的原型義詞的數(shù)據(jù)庫,內(nèi)包括有原型義的名詞、形容詞、動(dòng)詞和副詞,所述原型義詞分別由不同的特定分類編碼代表,而每一個(gè)所述原型義詞均可附帶一個(gè)同義詞近似特征參數(shù)組,但不填入?yún)?shù)值,以作為匯合各語種對(duì)應(yīng)所述原型義詞的同義詞近似特征參數(shù)組的總參數(shù)組;b.所述中間語句型模塊由關(guān)于子句的句型庫構(gòu)成,所述句型庫是對(duì)應(yīng)每個(gè)所述原型義動(dòng)詞的分?jǐn)?shù)據(jù)庫匯合后的總數(shù)據(jù)庫,所述分?jǐn)?shù)據(jù)庫內(nèi)包括所述原型義動(dòng)詞的非原型子句的變體子句的句型的記錄,并且在所述記錄內(nèi)皆包括與所述原型義動(dòng)詞共享的同一的分類編碼,以及包括句型特征參數(shù)組和分別對(duì)應(yīng)時(shí)間因素和空間因素的時(shí)間參數(shù)組和空間參數(shù)組,另外所述分?jǐn)?shù)據(jù)庫均可附帶一個(gè)同義句近似特征參數(shù)組,但不填入?yún)?shù)值,以作為各語種對(duì)應(yīng)所述原型子句的同義句近似特征參數(shù)組的規(guī)范。較佳地,所述的原型義名詞包括具體名詞、抽象名詞和本體名詞,而所述的抽象名詞則包括事件名詞、屬性名詞和概念名詞。較佳地,所述的屬性名詞則包括性質(zhì)屬性名詞、附加屬性名詞和事件屬性名詞。較佳地,所述的原型義形容詞是所述的屬性名詞的值,其所對(duì)應(yīng)的分類編碼是一種屬體-屬性-屬性值的三位一體編碼,所述原型義形容詞對(duì)應(yīng)所述屬性名詞包括性質(zhì)形容詞、附加形容詞和事件形容詞。較佳地,所述具體名詞的所述分類編碼包括指稱整體物的整體類編碼和指稱構(gòu)件物的構(gòu)件類編碼,后者是附屬于所屬整體物的編碼的次級(jí)編碼。較佳地,所述原型義動(dòng)詞與其所構(gòu)成的子句在所述共享編碼分類的第一層包括描述句、關(guān)系句、動(dòng)態(tài)句、事件句和特殊句。較佳地,所述描述句包括屬性句和狀態(tài)句,所述動(dòng)態(tài)句包括一元?jiǎng)討B(tài)句和二元?jiǎng)討B(tài)句。較佳地,所述動(dòng)態(tài)句的其中一個(gè)動(dòng)元必須是施事動(dòng)元。較佳地,所述施事動(dòng)元的事物按權(quán)重依次為人或人的組織、動(dòng)物、 動(dòng)力機(jī)械物、自然力和植物。較佳地,所述二元?jiǎng)討B(tài)句的兩個(gè)動(dòng)元分別以S動(dòng)元和O動(dòng)元表示,它們與其子句的動(dòng)詞V構(gòu)成所屬自然語言的自然語序,其中S動(dòng)元是所述的施事動(dòng)元。較佳地,所述二元?jiǎng)討B(tài)句包括操作句、社交句、言語句、活動(dòng)句、感覺句、思想句和心理句,其中所述操作句、社交句、言語句和活動(dòng)句帶有正向動(dòng)態(tài)特征,所述感覺句、本文檔來自技高網(wǎng)
    ...
    <a  title="中間語系統(tǒng)、中間語引擎、中間語翻譯系統(tǒng)和相應(yīng)方法原文來自X技術(shù)">中間語系統(tǒng)、中間語引擎、中間語翻譯系統(tǒng)和相應(yīng)方法</a>

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:陳重慶
    申請(qǐng)(專利權(quán))人:上海肇通信息技術(shù)有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    相關(guān)領(lǐng)域技術(shù)
    主站蜘蛛池模板: 五月丁香六月综合缴清无码| 国产精品无码久久av| 亚洲精品午夜无码电影网| 中文字幕日韩精品无码内射| 无码人妻精品一区二区| 18禁无遮挡无码网站免费 | 亚洲精品无码鲁网中文电影| 少妇人妻无码精品视频| 亚洲Av无码国产一区二区| 亚洲精品无码你懂的网站| 无码丰满熟妇一区二区| 无码人妻久久久一区二区三区 | 麻豆aⅴ精品无码一区二区 | 一本一道VS无码中文字幕| 东京热无码一区二区三区av| 国产精品无码亚洲精品2021| 无码乱人伦一区二区亚洲一| 国产免费久久久久久无码| 成人免费无码视频在线网站| 久久亚洲AV成人无码| 亚洲AV日韩AV高潮无码专区| 国产成人无码一二三区视频| 免费无码AV一区二区| 无码h黄肉3d动漫在线观看| 亚洲日韩精品无码专区加勒比☆| 无码AV天堂一区二区三区| 永久免费av无码入口国语片| 国产精品亚洲αv天堂无码| 人妻无码久久久久久久久久久| 国产成人无码A区在线观看导航| 人妻精品无码一区二区三区| 亚洲人AV在线无码影院观看| 中文有码无码人妻在线| 99久久人妻无码精品系列| JAVA性无码HD中文| 伊人天堂av无码av日韩av| 亚洲αⅴ无码乱码在线观看性色| 一夲道dvd高清无码| 67194成是人免费无码| 日韩精品无码人妻免费视频| 国产成人综合日韩精品无码|