• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于公共標識語的雙語語料采集系統技術方案

    技術編號:24331356 閱讀:28 留言:0更新日期:2020-05-29 19:43
    本發明專利技術涉及一種基于公共標識語的雙語語料采集系統,包括語料采集范圍設定模塊,用于在語料采集范圍進行語料采集的語料采集模塊,第一語料信息存儲模塊,第二語料信息存儲模塊,用于從采集的語料中提取公共標識語部分的公共標識語提取模塊,雙語對照翻譯模塊,第三語料信息存儲模塊。本發明專利技術基于網絡信息和參考書籍針對性地采集與公共標識語相關的內容,為公共標識語的詞匯提供了較為詳細的對照基礎,以便于后續使用時出現與公共標識語非相關的釋義,有效地提高了公共標識語應用中的翻譯準確度。

    Bilingual corpus collection system based on public signs

    【技術實現步驟摘要】
    基于公共標識語的雙語語料采集系統
    本專利技術涉及一種基于公共標識語的雙語語料采集系統。
    技術介紹
    公共標識語也被稱為公示語,主要是在城市中為公眾或游客的出行方便而提供的指示性語音,包括服務設施、機構名稱、廣告牌、公共設施、公共交通、旅游景點、街頭路牌、標語口號、商店招牌等,其作用是通過簡明的語言向公眾提供有效的信息。隨著經濟文化的發展,尤其是旅游業的發展,很多城市都吸引了大量的外國友人,因此公共標識語的翻譯顯得尤為重要,其不僅是城市語言環境和人文環境的代表,而且為促進旅游產業的發展起到重要的作用。正確、得體的公共標識語翻譯內容能夠為各國游客提供良好便捷的幫助并提高城市的整體形象,反之,錯誤、不得體的公共標識語反應內容會給外國游客帶來理解上的障礙甚至誤區,因此保證公共標識語翻譯的準確很有必要。在提高公共標識語翻譯準確度的過程中,建立合理準確的公共標識語雙語平行語料庫又至關重要,而公共標識語雙語平行語料庫又源于廣泛的雙語平行語料基礎,如何從廣泛的語料信息來源中獲取所需的公共標識語信息,是本領域技術人員亟需解決的問題。
    技術實現思路
    針對上述技術問題,本專利技術提供一種基于公共標識語的雙語語料采集系統,以較為方便地獲取所需公共標識語語料,并在一定程度上提高了語料的準確率。為實現上述目的,本專利技術采用的技術方案如下:一種基于公共標識語的雙語語料采集系統,包括:語料采集范圍設定模塊,用于設定與公共標識語相關的語料的采集范圍,該采集范圍包括涉及公共標識語的網頁、文獻著作;r>語料采集模塊,用于通過網絡爬蟲、人工輸入及文字識別形式在采集范圍內進行大規模的基礎語料信息采集,所述基礎語料信息包括單語種基礎語料信息和雙語種基礎語料信息;第一語料信息存儲模塊,用于存儲所采集到的單語種基礎語料信息;第二語料信息存儲模塊,用于存儲所采集到的雙語種基礎語料信息;公共標識語提取模塊,用于根據構建的公共標識語關鍵詞從第一語料信息存儲模塊提取單語種公共標識語語料信息和從第二語料信息存儲模塊中提取雙語種公共標識語語料信息;雙語對照翻譯模塊,用于將單語種公共標識語語料信息翻譯轉換為對應的雙語種公共標識語語料信息;以及第三語料信息存儲模塊,用于存儲雙語種公共標識語語料信息。進一步地,所述語料采集范圍設定模塊內置有預設采集來源集和擴展采集來源集,其中,預設采集來源集用于保存預設的固定采集范圍,擴展采集來源集用于保存來自輸入裝置新輸入的采集范圍。進一步地,所述語料采集模塊包括用于采集網絡上信息的爬蟲模塊,用于接收人工輸入信息的輸入模塊,用于對圖像上文字進行識別的掃描識別模塊,以及對采集的信息內容中的語種類別進行識別的語料語種識別模塊,其中,該語料語種識別模塊將識別出的單語種基礎語料信息傳輸至第一語料信息存儲模塊中保存,并將識別出的雙語種基礎語料信息傳輸至第二語料信息存儲模塊中保存。進一步地,所述公共標識語提取模塊還連接有關鍵詞庫,該關鍵詞庫用于保存公共標識語關鍵詞,其中一部分公共標識語關鍵詞為預設,并根據實際需求輸入并擴充新的公共標識語關鍵詞。進一步地,該基于公共標識語的雙語語料采集系統,還包括雙語校正模塊,用于將公共標識語提取模塊提取的雙語種公共標識語語料信息進行校正。進一步地,所述雙語校正模塊進行校正的過程為:從該雙語種公共標識語語料信息中分別識別提取出相互對應的中文部分和外文部分,然后基于雙語對照翻譯模塊使用的翻譯詞庫對該中文部分和外文部分的釋義進行對比,若對比近似度不小于85%,則認為該部分的雙語種公共標識語語料信息為可用,并將其存儲在第三語料信息存儲模塊中,若對比近似度不大于50%,則認為該部分的雙語種公共標識語語料信息為不可用,則采用所述翻譯詞庫對中文部分進行對應翻譯,并將翻譯后的該部分雙語種公共標識語語料信息存儲在第三語料信息存儲模塊中,若對比近似度介于50%~85%之間,則將該部分的雙語種公共標識語語料信息作疑似標記,并將提取獲得的中文部分和外文部分以及采用翻譯詞庫進行翻譯的內容以關聯形式共同存儲在第三語料信息存儲模塊中。進一步地,對所述雙語校正模塊或第三語料信息存儲模塊中存在疑似標記的雙語種公共標識語語料信息進行人工校正。與現有技術相比,本專利技術具有以下有益效果:(1)本專利技術基于網絡信息和參考書籍針對性地采集與公共標識語相關的內容,為公共標識語的詞匯提供了較為詳細的對照基礎,以便于后續使用時出現與公共標識語非相關的釋義,有效地提高了公共標識語應用中的翻譯準確度。(2)本專利技術通過對語料采集范圍的設定,基于基本的語料獲取范圍,并可通過人工輸入的方式擴展更多的語料采集范圍,以便于雙語語料的持續更新和增長。(3)本專利技術利用關鍵詞庫對含有所需公共標識語的內容進行進一步提取,以排出一些與公共標識語無關的內容,提高了后續使用的公共標識語的準確度,并通過翻譯詞庫對濃縮的公共標識語信息進行校正,進一步提高了雙語公共標識語的翻譯準確度。附圖說明圖1為本專利技術的結構框圖。圖2為語料采集模塊的結構框圖。具體實施方式下面結合附圖說明和實施例對本專利技術作進一步說明,本專利技術的方式包括但不僅限于以下實施例。實施例如圖1和圖2所示,該基于公共標識語的雙語語料采集系統,包括:語料采集范圍設定模塊,用于設定與公共標識語相關的語料的采集范圍,該采集范圍包括涉及公共標識語的網頁、文獻著作,如旅游行業的相關網站網頁、一些官方報告材料等;該語料采集范圍設定模塊內置有預設采集來源集和擴展采集來源集,其中,預設采集來源集用于保存預設的固定采集范圍,擴展采集來源集用于保存來自輸入裝置新輸入的采集范圍。語料采集模塊,用于通過網絡爬蟲、人工輸入及文字識別形式在采集范圍內進行大規模的基礎語料信息采集,所述基礎語料信息包括單語種基礎語料信息和雙語種基礎語料信息,并且該基礎語料信息以頁面段落為基本單位;該語料采集模塊包括用于采集網絡上信息的爬蟲模塊,用于接收人工輸入信息的輸入模塊,用于對圖像上文字進行識別的掃描識別模塊,以及對采集的信息內容中的語種類別進行識別的語料語種識別模塊,其中,該語料語種識別模塊將識別出的單語種基礎語料信息傳輸至第一語料信息存儲模塊中保存,并將識別出的雙語種基礎語料信息傳輸至第二語料信息存儲模塊中保存。第一語料信息存儲模塊,用于存儲所采集到的單語種基礎語料信息。第二語料信息存儲模塊,用于存儲所采集到的雙語種基礎語料信息。公共標識語提取模塊,用于根據構建的公共標識語關鍵詞從第一語料信息存儲模塊提取單語種公共標識語語料信息和從第二語料信息存儲模塊中提取雙語種公共標識語語料信息,其中,單語種公共標識語語料信息可以是中文語種,也可以是外文語種,并且所提取的語種公共標識語語料信息和雙語種公共標識語語料信息均以語句為基本單位。雙語對照翻譯模塊,用于將單語種公共標識語語料信息翻譯轉換為對應的雙語種公共標本文檔來自技高網...

    【技術保護點】
    1.一種基于公共標識語的雙語語料采集系統,其特征在于,包括:/n語料采集范圍設定模塊,用于設定與公共標識語相關的語料的采集范圍,該采集范圍包括涉及公共標識語的網頁、文獻著作;/n語料采集模塊,用于通過網絡爬蟲、人工輸入及文字識別形式在采集范圍內進行大規模的基礎語料信息采集,所述基礎語料信息包括單語種基礎語料信息和雙語種基礎語料信息;/n第一語料信息存儲模塊,用于存儲所采集到的單語種基礎語料信息;/n第二語料信息存儲模塊,用于存儲所采集到的雙語種基礎語料信息;/n公共標識語提取模塊,用于根據構建的公共標識語關鍵詞從第一語料信息存儲模塊提取單語種公共標識語語料信息和從第二語料信息存儲模塊中提取雙語種公共標識語語料信息;/n雙語對照翻譯模塊,用于將單語種公共標識語語料信息翻譯轉換為對應的雙語種公共標識語語料信息;以及/n第三語料信息存儲模塊,用于存儲雙語種公共標識語語料信息。/n

    【技術特征摘要】
    1.一種基于公共標識語的雙語語料采集系統,其特征在于,包括:
    語料采集范圍設定模塊,用于設定與公共標識語相關的語料的采集范圍,該采集范圍包括涉及公共標識語的網頁、文獻著作;
    語料采集模塊,用于通過網絡爬蟲、人工輸入及文字識別形式在采集范圍內進行大規模的基礎語料信息采集,所述基礎語料信息包括單語種基礎語料信息和雙語種基礎語料信息;
    第一語料信息存儲模塊,用于存儲所采集到的單語種基礎語料信息;
    第二語料信息存儲模塊,用于存儲所采集到的雙語種基礎語料信息;
    公共標識語提取模塊,用于根據構建的公共標識語關鍵詞從第一語料信息存儲模塊提取單語種公共標識語語料信息和從第二語料信息存儲模塊中提取雙語種公共標識語語料信息;
    雙語對照翻譯模塊,用于將單語種公共標識語語料信息翻譯轉換為對應的雙語種公共標識語語料信息;以及
    第三語料信息存儲模塊,用于存儲雙語種公共標識語語料信息。


    2.根據權利要求1所述的基于公共標識語的雙語語料采集系統,其特征在于,所述語料采集范圍設定模塊內置有預設采集來源集和擴展采集來源集,其中,預設采集來源集用于保存預設的固定采集范圍,擴展采集來源集用于保存來自輸入裝置新輸入的采集范圍。


    3.根據權利要求2所述的基于公共標識語的雙語語料采集系統,其特征在于,所述語料采集模塊包括用于采集網絡上信息的爬蟲模塊,用于接收人工輸入信息的輸入模塊,用于對圖像上文字進行識別的掃描識別模塊,以及對采集的信息內容中的語種類別進行識別的語料語種識別模塊,其中,該語料語種識別模塊將識別出的單語種基礎語料信息傳輸至第一語料信息存儲模塊中保存,并將識別出的雙語種基礎語料信...

    【專利技術屬性】
    技術研發人員:張潔王曉珊李偉彬劉華費比周黎周辛雨
    申請(專利權)人:成都理工大學成都信息工程大學
    類型:發明
    國別省市:四川;51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 水蜜桃av无码一区二区| 潮喷无码正在播放| 中文字幕人成无码免费视频| 99久久人妻无码精品系列蜜桃| 久久精品亚洲中文字幕无码麻豆| 无码人妻av一区二区三区蜜臀| 无码精品久久久久久人妻中字 | 久久无码av三级| 日本精品无码一区二区三区久久久 | 久久无码高潮喷水| 中文字幕精品无码一区二区| 中字无码av电影在线观看网站| 超清无码一区二区三区| 无码人妻精品内射一二三AV| 国产av永久无码天堂影院| 色欲AV无码一区二区三区| 亚洲αⅴ无码乱码在线观看性色 | 亚洲熟妇无码AV在线播放| 国产莉萝无码AV在线播放 | 亚洲色无码专区一区| 日韩乱码人妻无码系列中文字幕| 亚洲一级Av无码毛片久久精品| 亚洲aⅴ无码专区在线观看春色| 久久久久亚洲AV无码永不| 丝袜无码一区二区三区| 久久精品无码av| 亚洲&#228;v永久无码精品天堂久久| 中文字幕久久久人妻无码| 无码国产精品一区二区免费式影视 | 亚洲AV成人无码天堂| 久久久无码精品亚洲日韩蜜臀浪潮 | 免费A级毛片无码A| 久久久久久99av无码免费网站 | 成人免费无码视频在线网站| 亚洲AV永久无码精品一福利| 精品国精品无码自拍自在线| 亚洲人av高清无码| 爆乳无码AV一区二区三区| 国产精品成人一区无码| 亚洲免费日韩无码系列| 一本加勒比HEZYO无码人妻|