一種處理PDF文件的方法及裝置制造方法及圖紙

技術編號：13306798 閱讀：48 留言：0更新日期：2016-07-10 02:05

本發明專利技術提供了一種處理PDF文件的方法及裝置，其中，方法包括：獲取所需頁面；獲取所述所需頁面中的內容流對象；解析所述內容流對象得到所需段落。本方案提供的所述處理PDF文件的方法通過獲取所需頁面，進而獲取所述所需頁面中的內容流對象，然后解析所述內容流對象得到所需段落，可以完整的獲取PDF文件中的段落，保留原有的架構，解決了技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及文件處理
，特別是指一種處理PDF文件的方法及裝置。
技術介紹
PDF全稱PortableDocumentFormat，即“便攜文檔格式”，是一種電子文檔格式。這種格式與操作平臺無關，跨平臺特點突出，可在幾乎所有的平臺上使用。這一特性使它成為在Internet上進行電子文檔發行和數字化信息傳播的首選文檔格式。越來越多的圖書文獻資料首選PDF作為其電子發布的形式，如電子圖書、產品說明、公司公告、網絡資料、電子郵件等。PDF格式已成為用于將信息數字化的一個事實上的工業標準。PDF格式有其鮮明的技術特色，如跨平臺性優越；可集成多種媒體信息出版和發布，可集成超文本鏈接、聲音及動態影像等電子信息；提供了對網絡信息發布的支持。其中，在PDF的可信可靠，維護信息完整性與一致性及保持信息安全性上，最為使用者所稱道的則是其安全性，數字簽名或使用密碼保護。而其他格式則很容易地可以修改或編輯。PDF的安全性首先保證了PDF文檔不能被編輯，至少不能被輕易修改；其次可通過設置權限，限制用戶的內容打印、內容復制甚至是評論或批注的添加、修改或刪除。PDF文檔只供閱讀，不能被修改，確保了內容的完整性與其他特性。PDF格式設計的初衷不是用來編輯的，對PDF文件內的小部分變動可能問題不大，但對PDF文檔中的整塊文字或影像的修改就相當困難。即便使用市場上的有關工具，也無法避開這類限制。在使用PDF文檔的過程...

【技術保護點】
一種處理PDF文件的方法，其特征在于，包括：獲取所需頁面；獲取所述所需頁面中的內容流對象；解析所述內容流對象得到所需段落。

【技術特征摘要】
1.一種處理PDF文件的方法，其特征在于，包括：
獲取所需頁面；
獲取所述所需頁面中的內容流對象；
解析所述內容流對象得到所需段落。
2.如權利要求1所述的方法，其特征在于，獲取所需頁面的步驟包括：
抽取PDF文檔對象模型；
在所述PDF文檔對象模型中查找目錄對象；
在所述目錄對象中通過第一預設鍵值查找頁面樹對象；
在所述頁面樹對象中查找第二預設鍵值所對應的對象，得到一個頁面數組；
通過所述頁面數組中的數據，索引到所需頁面。
3.如權利要求1所述的方法，其特征在于，獲取所述所需頁面中的內容流
對象的步驟包括：
處理所述所需頁面的內容得到所述所需頁面的頁面對象；
從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。
4.如權利要求1所述的方法，其特征在于，解析所述內容流對象得到所需
段落的步驟包括：
從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容；
從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引
導的預設鍵值對之間的內容項對象；
從所述內容項對象中獲取預設括號對包裹的所需段落的內容。
5.如權利要求4所述的方法，其特征在于，解析所述內容流對象得到所需
段落的步驟還包括：
若所述預設括號對與所述第六預設鍵值之間存在預設標記，則將獲取的該
內容項對應的內容附加到上一個內容項對應的內容中，構成完整的段落。
6.一種處理PDF文件的裝置，其特征在于，包括：
第一獲取模塊，用于獲取所需頁面；
第二獲取...

【專利技術屬性】
技術研發人員：劉利川，鄭程光，孫偉豐，羅正海，李浩，
申請(專利權)人：北大方正集團有限公司，北大方正信息產業集團有限公司，
類型：發明
國別省市：北京;11

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術