本發明專利技術公開了一種移置三類漢字信息字碼表實現字詞句的隨機編碼方法,該方法選用三類不同漢字信息(部件、拼音、筆劃)的字碼表移置系統設定的特征碼鍵位列表中。人們只需按系統設定的隨機取碼規則輸入字、詞、句信息,不論是單一類信息還是混合類信息,也不論什么碼長,電腦都可以從字、詞、句庫中采樣相關編碼信息和判別編碼條件來自動生成每一類編碼操作,不僅能保留原有三類信息的字、詞、句編碼,且能實現它們之間的互補編碼,無需作切換。這種個性化自主編碼操作,就是中文隨機編碼方法。
【技術實現步驟摘要】
本專利技術涉及計算機中文信息處理領域,提出了一種新的系統信息結構和新的編碼規則以及實現字、詞、句隨機編碼的技術方案。
技術介紹
當今信息技術日新月異,唯獨漢字輸入技術三十年沒有根本性突破,癥結在哪里?漢字是一類多信息(形、音、筆劃等)文字,選擇信息的多樣化是其輸入優勢,構字缺乏規律性又是其輸入劣勢。輸入法的出路就是揚長避短。對多信息文字來說,任何一類單信息編碼方案都是不可取的。當前普遍采用的碼表技術是一種單信息編碼技術,因而至今也擺脫不了難學難用的困境。中文輸入若要走出困境,不在創建更多的編碼方案,而是要創建一種適應漢字特點的編碼方法。最理想的輸入方法無疑是用戶自主編碼操作。也就是說,最好是一個因人而異、因字(或詞或句)而異、隨機應變、包羅萬象,又各取所需的綜合型漢字輸入系統,這樣的系統不僅讓人們充分利用自己熟悉的各類漢字信息,又能回避其中不熟悉的成分,從而面對不同知識層面的全體華人。這就是中文隨機編碼方法。本人二年前申請過一項專利技術“中文信息數字化處理方法和漢字隨機編碼方法”(申請號201010274141.4)曾提出一種分列式特征碼列表結構,在系統中建立三類不同信息(部件、拼音、筆劃等)的分列表,雖然實現了字、詞、句隨機編碼操作。但是這種分列表,結構較松散和繁瑣,其中部件類信息的鍵位列表就有26個,拼音信息要建立23個聲母和35個韻母列表,如此多的列表會給實施和推廣這項技術帶來不便和困擾。它的優點是執行速度較快。
技術實現思路
針對上述現有技術的不足,本專利技術提出一種集成式特征碼列表結構。同樣的三類漢字信息(部件、拼音、筆劃等),只需建立三個列表就可實現同類和不同類信息的字、詞、句隨機編碼操作,其結構緊湊、直觀,而且可直接移植當今通用的任何三類不同編碼方案中的字碼表(無需詞、句碼表),但這里的字碼表不是用作搜索編碼漢字,而是用作字、詞、句隨機編碼的數字化信息源。與集成式列表結構相配套的隨機處理技術還包括一套“隨機編碼規則”和“信息比對編碼法”,構建字、詞、句隨機編碼的三項技術支柱。優選地,包括如下步驟設置部件、拼音、筆畫三類字碼表于特征碼列表中作為系統信息源;設置字、詞、句隨機取碼規則作為隨機編碼的操作規范;采用“信息比對編碼法”作為隨機編碼實施方案,其中包括設置字、詞、句三個編碼緩沖區、字、詞、句編碼信息采樣和儲存方法、建立字詞句編碼特征數據及其字詞句編碼判別方法等。這是完整配套措施,缺一不可。優選地,字的隨機編碼方法,當輸入第一鍵時,先判斷輸入信息類型,然后選擇同類型的特征碼列表,將該列表中每個漢字特征單元的首鍵序與輸入信息比對,比對一致者,置字編碼緩沖區同一漢字的數據項DO位為“1”,比對不一致的漢字,保持DO = 0 ;輸入第二鍵,若和第一鍵屬相同類型,則要和該類特征碼中每個漢字的第二鍵序比對,若和第一鍵為不同輸入類型,則要和異類特征碼的第一鍵序比對,比對結果置字編碼緩沖區同一漢字數據項(國標單元)的Dl位為“1”,第三、四鍵與第二鍵相同,不過與特征碼比對的鍵序位和儲入字緩沖區的數據位不同;當輸入字結束鍵,去字緩沖區搜索每個字數據項中的儲入數據,在碼長內為全“I”的即為編碼字。優選地,詞編碼只與字的第一第二鍵序有關,所以每壓一鍵,輸入信息要同時與特征碼列表中的第一第二鍵序作比對。輸入第一鍵,根據輸入信息類型與其同類特征碼列表中每個漢字的首、次鍵序碼作比對,首鍵序比對一致,置詞編碼緩沖區同一漢字數據項(國標單元)的DO位為“1”,比對不一致則不變;次鍵序比對一致,置詞緩沖區同一漢字數據項的Dl位為“1”,比對不一致則Dl位不變;壓第二、三、四鍵,效法處理,不過置入詞緩沖區的是D2D3位、D4D5位、D6D7位;詞結束鍵后,逐條檢出詞庫中詞語,根據其詞長在詞緩沖區構建詞編碼判別單元,并與詞編碼特征數據作比對,詞編碼特征數據不僅與詞長有關,也與輸入信息類型的異同有關,符合詞編碼特征數據的詞屬編碼詞。優選地,句編碼只與字的第一鍵序有關;輸入第一鍵,壓鍵信息與其同類特征碼列表中每個漢字的第一鍵序碼作比對,比對一致,置句編碼緩沖區同一漢字數據項(國標單元)的DO位為“1”,比對不一致則不變;輸入第二鍵,根據輸入信息類型與其同類特征碼列表中每個漢字的第一鍵序碼作比對,比對一致者儲入句編碼緩沖區同一漢字數據項的Dl位,重復上述步驟輸入第三、四、五直至末鍵,去句庫檢出與壓鍵數相關句長句子,依次搜索句中每個字在句緩沖區中的相應數據位是全“I”的句子屬編碼句。優選地,三類字碼表移置系統集成式特征碼列表,集成式列表結構分做漢字的國標地址和特征單元二部份,其中國標地址與字庫中的漢字一一對應,特征單元標示每個漢字分解后的各個信息代碼;部件碼的特征單元分別標記首部件、次部件、第三部件和末部件等四碼;拼音碼標示聲、韻母等二碼;筆劃碼標示第一二筆、第三四筆和第五末筆等三碼。優選地,所述字、詞、句三個編碼緩沖區的結構包括國標地址和國標單元二部分;結束鍵之前,三個緩沖區的國標單元分別用于儲存字、詞、句相關的編碼信息;結束鍵之后,用于判別字、詞、句編碼條件。優選地,字、詞、句隨機編碼設置了一套自己獨特的取碼規則同類信息編碼,一般沿用字碼表移置前的字、詞、句傳統編碼規則;傳統字、詞、句編碼輸入中遇到不同漢字容許輸入不同類漢字信息;字、詞輸入過程中難以辯識的同類信息次鍵序或后鍵序,可用異類信息首鍵序取代;不論輸入同類信息或異類信息,在碼長范圍內均按各類信息的分解次序取碼。當人們輸入任何一個字或詞或句時,在系統制定的隨機取碼規則下,可隨意變換各類漢字信息和碼長,包括三類不同信息間互補的上百個不同編碼組合,每一個編碼組合均為實時操作,無需作切換、無需建碼表、也無需額外記憶。因此公開本專利技術將給實施和推廣隨機編碼技術帶來方便。人們在輸入字、詞、句過程中,輸入了首部件不清楚次部件如何被拆分時,即可輸入該漢字的聲母以取代。輸入了聲母分不清韻母時,可輸入該漢字的首部件以取代。當你連首部件和聲母都搞不定時,便可變換筆劃輸入。當你不能或不想完整分解一個字時,也可變換碼長來輸入。提供給用戶充分個性化的自主編碼操作,便是提出隨機編碼輸入法的理念。說明書附1是實施本專利技術的設計流程圖具體實施例方式用集成式列表結構實施隨機編碼操作,本專利技術創建三項技術支柱1,集成式特征碼列表結構是隨機編碼的信息基礎集成式特征碼字元表(以下簡稱YG表)集成式特征碼列表分為字元表和鍵位表二種,前者用于編碼設計,后者用于編碼操作。字元表又分部件、拼音和筆劃等三類。直接引入國家頒布的“漢字部件規范”、“漢語拼音方案”和“漢字筆劃規范”等信息標準,作為隨機編碼設計的規范化信息源。建立特征碼字元表與建立碼表方案中的字元碼一樣。以漢字部件碼為例,首先設定200多個規范化部件信息的代碼表,據此分解漢字庫(如GB2312)中的每個漢字。集成式特征碼包括國標地址及特征單元二部份,國標地址與漢字國標碼(為了區別于單字節字符,系統中常用機內碼替代國標碼)一一對應。無論上面涉及的三類特征碼列表和還是下面將要涉及的字、詞、句編碼緩沖區,都包含有一組映射整個字庫的地址碼,這里稱之謂國標地址,它們的高位地址部份存在區域差,而低位部份的地址碼則完全相同,另外設置有一個地址轉換器,其中的操作數存放字庫中每本文檔來自技高網...
【技術保護點】
一種移置三類漢字信息字碼表實現字詞句的隨機編碼方法,其特征在于,包括如下幾個方面:移置當前三類不同編碼方案的字碼表于隨機系統中的特征碼鍵位列表中;設置字、詞、句隨機取碼規則;采用信息比對編碼法;設置字、詞、句三個編碼緩沖區;由于字、詞、句的隨機取碼規則是不同的以及前后輸入信息類型也會經常變化,每次輸入信息時,選擇比對特征碼中的鍵序也是不同的,因此儲入各編碼緩沖區的數據也將不同;字結束鍵后,選擇字詞句編碼的特征數據也因碼長不同及前后信息類型變化有所差別,對于字隨機編碼,當輸入第一鍵時,首先判斷輸入信息類型,取壓鍵信息與同類特征碼列表中每個漢字的首鍵序比對,比對一致的漢字在字編碼緩沖區同一漢字的數據項D0置“1”,不一致保持“0”;輸入第二鍵時,同樣先判斷輸入信息類型,若所壓二鍵信息是同類,則壓鍵信息與其同類特征碼列表中次鍵序比對;若二鍵異類則與異類信息特征碼列表中首鍵序比對;如此重復上述步驟直至檢出編碼字。
【技術特征摘要】
1.一種移置三類漢字信息字碼表實現字詞句的隨機編碼方法,其特征在于,包括如下幾個方面移置當前三類不同編碼方案的字碼表于隨機系統中的特征碼鍵位列表中;設置字、詞、句隨機取碼規則;采用信息比對編碼法;設置字、詞、句三個編碼緩沖區;由于字、詞、句的隨機取碼規則是不同的以及前后輸入信息類型也會經常變化,每次輸入信息時,選擇比對特征碼中的鍵序也是不同的,因此儲入各編碼緩沖區的數據也將不同;字結束鍵后,選擇字詞句編碼的特征數據也因碼長不同及前后信息類型變化有所差別,對于字隨機編碼,當輸入第一鍵時,首先判斷輸入信息類型,取壓鍵信息與同類特征碼列表中每個漢字的首鍵序比對,比對一致的漢字在字編碼緩沖區同一漢字的數據項DO置“1”,不一致保持“O” ;輸入第二鍵時,同樣先判斷輸入信息類型,若所壓二鍵信息是同類,則壓鍵信息與其同類特征碼列表中次鍵序比對;若二鍵異類則與異類信息特征碼列表中首鍵序比對;如此重復上述步驟直至檢出編碼字。2.根據權利要求1所述的移置三類漢字信息字碼表實現字詞句的隨機編碼方法,其特征在于輸入信息之前,三個緩沖區清零;字隨機編碼輸入第一鍵,選擇同類特征碼列表中每個漢字的首鍵序與壓鍵信息比對,比對一致者,置字編碼緩沖區同一漢字的數據項DO位為“1”,比對不一致的漢字,保持DO = O ;輸入第二鍵,若和第一鍵屬同類型,則要和該類特征碼中每個漢字的第二鍵序比對,若和第一鍵為不同輸入類型,則和該異類特征碼的第一鍵序比對,比對結果置字編碼緩沖區同一漢字數據項的Dl位;第三、四鍵效法第二鍵處理,不過與特征碼比對的鍵序位和儲入字緩沖區的數據位是不同的,儲入的是字緩沖區中D2、D3位;當輸入字結束鍵,去字緩沖區搜索每個字數據項中的儲入數據,在碼長內為全“I”的即為編碼字。3.根據權利要求1所述的移置三類漢字信息字碼表實現字詞句的隨機編碼方法,其特征在于詞編碼只與字的第一第二鍵序有關,輸入第一鍵,根據當前壓鍵信息與其同類特征碼列表中每個漢字的首、次鍵序碼作比對,首鍵序比對一致,置詞編碼緩沖區同一漢字數據項的DO位為“1”,比對不一致則不變;次鍵序比對一致,置詞緩沖區同一漢字數據項的Dl位為“1”,比對不一致則Dl位不變;壓第二、三、四鍵,效法處理,不過置入詞緩沖區數據項的是D2D3位、D4D5位、D6D7位;詞結束后,逐條...
【專利技術屬性】
技術研發人員:陳玉龍,
申請(專利權)人:劉陶,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。