本發明專利技術提供了一種處理PDF文件的方法及裝置,其中,方法包括:獲取所需頁面;獲取所述所需頁面中的內容流對象;解析所述內容流對象得到所需段落。本方案提供的所述處理PDF文件的方法通過獲取所需頁面,進而獲取所述所需頁面中的內容流對象,然后解析所述內容流對象得到所需段落,可以完整的獲取PDF文件中的段落,保留原有的架構,解決了技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。
【技術實現步驟摘要】
本專利技術涉及文件處理
,特別是指一種處理PDF文件的方法及裝置。
技術介紹
PDF全稱PortableDocumentFormat,即“便攜文檔格式”,是一種電子文檔格式。這種格式與操作平臺無關,跨平臺特點突出,可在幾乎所有的平臺上使用。這一特性使它成為在Internet上進行電子文檔發行和數字化信息傳播的首選文檔格式。越來越多的圖書文獻資料首選PDF作為其電子發布的形式,如電子圖書、產品說明、公司公告、網絡資料、電子郵件等。PDF格式已成為用于將信息數字化的一個事實上的工業標準。PDF格式有其鮮明的技術特色,如跨平臺性優越;可集成多種媒體信息出版和發布,可集成超文本鏈接、聲音及動態影像等電子信息;提供了對網絡信息發布的支持。其中,在PDF的可信可靠,維護信息完整性與一致性及保持信息安全性上,最為使用者所稱道的則是其安全性,數字簽名或使用密碼保護。而其他格式則很容易地可以修改或編輯。PDF的安全性首先保證了PDF文檔不能被編輯,至少不能被輕易修改;其次可通過設置權限,限制用戶的內容打印、內容復制甚至是評論或批注的添加、修改或刪除。PDF文檔只供閱讀,不能被修改,確保了內容的完整性與其他特性。PDF格式設計的初衷不是用來編輯的,對PDF文件內的小部分變動可能問題不大,但對PDF文檔中的整塊文字或影像的修改就相當困難。即便使用市場上的有關工具,也無法避開這類限制。在使用PDF文檔的過程中,經常不可避免地要對PDF文檔中的文字進行抽取或復制。在對PDF格式的文檔進行內容抽取時,或對PDF格式的文檔進行拷貝粘貼時,幾乎不可避免的出現樣的現象:看來明明是一段完整的文字段落,但抽取出來時,被抽取的內容被劃分成了多個塊;選中段落,拷貝,粘貼出來時,同樣的問題,完整的一段文字被分成了若干部分,并非期望的整體。行不再是完整的行,而段也不再是正常的段。這種拷貝出的或抽取出的段落,被分為了若干部分,顯得支離破碎,破壞了原邏輯關系,甚至一句完整的語句都不存在,破壞了原段落的組織結構,導致了使用者不知其所云,不明白原段落表達的內容。對原段落組織結構的破壞,一方面使使用者不知段落所表達的內容,失去了段落原本承載的語用功能,使用戶不能清楚地理解原段落要表達的意思;另一方面,為后續的加工處理造成了不少的障礙,人為的調整,難免不會不出現與原段落不符的情況。
技術實現思路
本專利技術要解決的技術問題是提供一種處理PDF文件的方法及裝置,解決現有技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。為了解決上述技術問題,本專利技術實施例提供一種處理PDF文件的方法,包括:獲取所需頁面;獲取所述所需頁面中的內容流對象;解析所述內容流對象得到所需段落。其中,獲取所需頁面的步驟包括:抽取PDF文檔對象模型;在所述PDF文檔對象模型中查找目錄對象;在所述目錄對象中通過第一預設鍵值查找頁面樹對象;在所述頁面樹對象中查找第二預設鍵值所對應的對象,得到一個頁面數組;通過所述頁面數組中的數據,索引到所需頁面。其中,獲取所述所需頁面中的內容流對象的步驟包括:處理所述所需頁面的內容得到所述所需頁面的頁面對象;從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。其中,解析所述內容流對象得到所需段落的步驟包括:從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容;從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引導的預設鍵值對之間的內容項對象;從所述內容項對象中獲取預設括號對包裹的所需段落的內容。其中,解析所述內容流對象得到所需段落的步驟還包括:若所述預設括號對與所述第六預設鍵值之間存在預設標記,則將獲取的該內容項對應的內容附加到上一個內容項對應的內容中,構成完整的段落。本專利技術還提供了一種處理PDF文件的裝置,包括:第一獲取模塊,用于獲取所需頁面;第二獲取模塊,用于獲取所述所需頁面中的內容流對象;解析模塊,用于解析所述內容流對象得到所需段落。其中,所述第一獲取模塊包括:抽取子模塊,用于抽取PDF文檔對象模型;第一查找子模塊,用于在所述PDF文檔對象模型中查找目錄對象;第二查找子模塊,用于在所述目錄對象中通過第一預設鍵值查找頁面樹對象;第三查找子模塊,用于在所述頁面樹對象中查找第二預設鍵值所對應的對象,得到一個頁面數組;索引子模塊,用于通過所述頁面數組中的數據,索引到所需頁面。其中,所述第二獲取模塊包括:處理子模塊,用于處理所述所需頁面的內容得到所述所需頁面的頁面對象;第一獲取子模塊,用于從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。其中,所述解析模塊包括:第二獲取子模塊,用于從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容;第三獲取子模塊,用于從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引導的預設鍵值對之間的內容項對象;第四獲取子模塊,用于從所述內容項對象中獲取預設括號對包裹的所需段落的內容。其中,所述解析模塊還包括:附加子模塊,用于若所述預設括號對與所述第六預設鍵值之間存在預設標記,則將獲取的該內容項對應的內容附加到上一個內容項對應的內容中,構成完整的段落。本專利技術的上述技術方案的有益效果如下:上述方案中,所述處理PDF文件的方法通過獲取所需頁面,進而獲取所述所需頁面中的內容流對象,然后解析所述內容流對象得到所需段落,可以完整的獲取PDF文件中的段落,保留原有的架構,解決了技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。附圖說明圖1為本專利技術實施例的處理PDF文件的方法步驟示意圖;圖2為本專利技術實施例的處理PDF文件的裝置結構示意圖。具體實施方式為使本專利技術要解決的技術問題、技術方案和優點更加清楚,下面將結合附圖及具體實施例進行詳細描述。本專利技術針對現有的技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題,提供一種處理PDF文件的方法,如圖1所示,包括:步驟11:獲取所需頁面;步驟12:獲取所述所需頁面中的內容流對象;步驟13:解析所述內容流對象得到所需段落。本專利技術實施例提供的所述處理PDF文件的方法通過獲取所需頁面,進而獲取所述所需頁面中的內容流對象,然后解析所述內容流對象得到所需段落,可以完整的獲取PDF文件中的段落,保留原本文檔來自技高網...
【技術保護點】
一種處理PDF文件的方法,其特征在于,包括:獲取所需頁面;獲取所述所需頁面中的內容流對象;解析所述內容流對象得到所需段落。
【技術特征摘要】
1.一種處理PDF文件的方法,其特征在于,包括:
獲取所需頁面;
獲取所述所需頁面中的內容流對象;
解析所述內容流對象得到所需段落。
2.如權利要求1所述的方法,其特征在于,獲取所需頁面的步驟包括:
抽取PDF文檔對象模型;
在所述PDF文檔對象模型中查找目錄對象;
在所述目錄對象中通過第一預設鍵值查找頁面樹對象;
在所述頁面樹對象中查找第二預設鍵值所對應的對象,得到一個頁面數組;
通過所述頁面數組中的數據,索引到所需頁面。
3.如權利要求1所述的方法,其特征在于,獲取所述所需頁面中的內容流
對象的步驟包括:
處理所述所需頁面的內容得到所述所需頁面的頁面對象;
從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。
4.如權利要求1所述的方法,其特征在于,解析所述內容流對象得到所需
段落的步驟包括:
從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容;
從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引
導的預設鍵值對之間的內容項對象;
從所述內容項對象中獲取預設括號對包裹的所需段落的內容。
5.如權利要求4所述的方法,其特征在于,解析所述內容流對象得到所需
段落的步驟還包括:
若所述預設括號對與所述第六預設鍵值之間存在預設標記,則將獲取的該
內容項對應的內容附加到上一個內容項對應的內容中,構成完整的段落。
6.一種處理PDF文件的裝置,其特征在于,包括:
第一獲取模塊,用于獲取所需頁面;
第二獲取...
【專利技術屬性】
技術研發人員:劉利川,鄭程光,孫偉豐,羅正海,李浩,
申請(專利權)人:北大方正集團有限公司,北大方正信息產業集團有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。