• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種處理PDF文件的方法及裝置制造方法及圖紙

    技術編號:13306798 閱讀:48 留言:0更新日期:2016-07-10 02:05
    本發明專利技術提供了一種處理PDF文件的方法及裝置,其中,方法包括:獲取所需頁面;獲取所述所需頁面中的內容流對象;解析所述內容流對象得到所需段落。本方案提供的所述處理PDF文件的方法通過獲取所需頁面,進而獲取所述所需頁面中的內容流對象,然后解析所述內容流對象得到所需段落,可以完整的獲取PDF文件中的段落,保留原有的架構,解決了技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。

    【技術實現步驟摘要】

    本專利技術涉及文件處理
    ,特別是指一種處理PDF文件的方法及裝置
    技術介紹
    PDF全稱PortableDocumentFormat,即“便攜文檔格式”,是一種電子文檔格式。這種格式與操作平臺無關,跨平臺特點突出,可在幾乎所有的平臺上使用。這一特性使它成為在Internet上進行電子文檔發行和數字化信息傳播的首選文檔格式。越來越多的圖書文獻資料首選PDF作為其電子發布的形式,如電子圖書、產品說明、公司公告、網絡資料、電子郵件等。PDF格式已成為用于將信息數字化的一個事實上的工業標準。PDF格式有其鮮明的技術特色,如跨平臺性優越;可集成多種媒體信息出版和發布,可集成超文本鏈接、聲音及動態影像等電子信息;提供了對網絡信息發布的支持。其中,在PDF的可信可靠,維護信息完整性與一致性及保持信息安全性上,最為使用者所稱道的則是其安全性,數字簽名或使用密碼保護。而其他格式則很容易地可以修改或編輯。PDF的安全性首先保證了PDF文檔不能被編輯,至少不能被輕易修改;其次可通過設置權限,限制用戶的內容打印、內容復制甚至是評論或批注的添加、修改或刪除。PDF文檔只供閱讀,不能被修改,確保了內容的完整性與其他特性。PDF格式設計的初衷不是用來編輯的,對PDF文件內的小部分變動可能問題不大,但對PDF文檔中的整塊文字或影像的修改就相當困難。即便使用市場上的有關工具,也無法避開這類限制。在使用PDF文檔的過程中,經常不可避免地要對PDF文檔中的文字進行抽取或復制。在對PDF格式的文檔進行內容抽取時,或對PDF格式的文檔進行拷貝粘貼時,幾乎不可避免的出現樣的現象:看來明明是一段完整的文字段落,但抽取出來時,被抽取的內容被劃分成了多個塊;選中段落,拷貝,粘貼出來時,同樣的問題,完整的一段文字被分成了若干部分,并非期望的整體。行不再是完整的行,而段也不再是正常的段。這種拷貝出的或抽取出的段落,被分為了若干部分,顯得支離破碎,破壞了原邏輯關系,甚至一句完整的語句都不存在,破壞了原段落的組織結構,導致了使用者不知其所云,不明白原段落表達的內容。對原段落組織結構的破壞,一方面使使用者不知段落所表達的內容,失去了段落原本承載的語用功能,使用戶不能清楚地理解原段落要表達的意思;另一方面,為后續的加工處理造成了不少的障礙,人為的調整,難免不會不出現與原段落不符的情況。
    技術實現思路
    本專利技術要解決的技術問題是提供一種處理PDF文件的方法及裝置,解決現有技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。為了解決上述技術問題,本專利技術實施例提供一種處理PDF文件的方法,包括:獲取所需頁面;獲取所述所需頁面中的內容流對象;解析所述內容流對象得到所需段落。其中,獲取所需頁面的步驟包括:抽取PDF文檔對象模型;在所述PDF文檔對象模型中查找目錄對象;在所述目錄對象中通過第一預設鍵值查找頁面樹對象;在所述頁面樹對象中查找第二預設鍵值所對應的對象,得到一個頁面數組;通過所述頁面數組中的數據,索引到所需頁面。其中,獲取所述所需頁面中的內容流對象的步驟包括:處理所述所需頁面的內容得到所述所需頁面的頁面對象;從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。其中,解析所述內容流對象得到所需段落的步驟包括:從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容;從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引導的預設鍵值對之間的內容項對象;從所述內容項對象中獲取預設括號對包裹的所需段落的內容。其中,解析所述內容流對象得到所需段落的步驟還包括:若所述預設括號對與所述第六預設鍵值之間存在預設標記,則將獲取的該內容項對應的內容附加到上一個內容項對應的內容中,構成完整的段落。本專利技術還提供了一種處理PDF文件的裝置,包括:第一獲取模塊,用于獲取所需頁面;第二獲取模塊,用于獲取所述所需頁面中的內容流對象;解析模塊,用于解析所述內容流對象得到所需段落。其中,所述第一獲取模塊包括:抽取子模塊,用于抽取PDF文檔對象模型;第一查找子模塊,用于在所述PDF文檔對象模型中查找目錄對象;第二查找子模塊,用于在所述目錄對象中通過第一預設鍵值查找頁面樹對象;第三查找子模塊,用于在所述頁面樹對象中查找第二預設鍵值所對應的對象,得到一個頁面數組;索引子模塊,用于通過所述頁面數組中的數據,索引到所需頁面。其中,所述第二獲取模塊包括:處理子模塊,用于處理所述所需頁面的內容得到所述所需頁面的頁面對象;第一獲取子模塊,用于從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。其中,所述解析模塊包括:第二獲取子模塊,用于從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容;第三獲取子模塊,用于從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引導的預設鍵值對之間的內容項對象;第四獲取子模塊,用于從所述內容項對象中獲取預設括號對包裹的所需段落的內容。其中,所述解析模塊還包括:附加子模塊,用于若所述預設括號對與所述第六預設鍵值之間存在預設標記,則將獲取的該內容項對應的內容附加到上一個內容項對應的內容中,構成完整的段落。本專利技術的上述技術方案的有益效果如下:上述方案中,所述處理PDF文件的方法通過獲取所需頁面,進而獲取所述所需頁面中的內容流對象,然后解析所述內容流對象得到所需段落,可以完整的獲取PDF文件中的段落,保留原有的架構,解決了技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題。附圖說明圖1為本專利技術實施例的處理PDF文件的方法步驟示意圖;圖2為本專利技術實施例的處理PDF文件的裝置結構示意圖。具體實施方式為使本專利技術要解決的技術問題、技術方案和優點更加清楚,下面將結合附圖及具體實施例進行詳細描述。本專利技術針對現有的技術中在PDF文件處理過程中段落不能夠被完整抽取出來的問題,提供一種處理PDF文件的方法,如圖1所示,包括:步驟11:獲取所需頁面;步驟12:獲取所述所需頁面中的內容流對象;步驟13:解析所述內容流對象得到所需段落。本專利技術實施例提供的所述處理PDF文件的方法通過獲取所需頁面,進而獲取所述所需頁面中的內容流對象,然后解析所述內容流對象得到所需段落,可以完整的獲取PDF文件中的段落,保留原本文檔來自技高網
    ...

    【技術保護點】
    一種處理PDF文件的方法,其特征在于,包括:獲取所需頁面;獲取所述所需頁面中的內容流對象;解析所述內容流對象得到所需段落。

    【技術特征摘要】
    1.一種處理PDF文件的方法,其特征在于,包括:
    獲取所需頁面;
    獲取所述所需頁面中的內容流對象;
    解析所述內容流對象得到所需段落。
    2.如權利要求1所述的方法,其特征在于,獲取所需頁面的步驟包括:
    抽取PDF文檔對象模型;
    在所述PDF文檔對象模型中查找目錄對象;
    在所述目錄對象中通過第一預設鍵值查找頁面樹對象;
    在所述頁面樹對象中查找第二預設鍵值所對應的對象,得到一個頁面數組;
    通過所述頁面數組中的數據,索引到所需頁面。
    3.如權利要求1所述的方法,其特征在于,獲取所述所需頁面中的內容流
    對象的步驟包括:
    處理所述所需頁面的內容得到所述所需頁面的頁面對象;
    從所述頁面對象中獲取第三預設鍵值對應的所述所需頁面的內容流對象。
    4.如權利要求1所述的方法,其特征在于,解析所述內容流對象得到所需
    段落的步驟包括:
    從所述內容流對象中獲取第四預設鍵值與第五預設鍵值之間的內容;
    從所述第四預設鍵值與第五預設鍵值之間的內容中獲取以第六預設鍵值引
    導的預設鍵值對之間的內容項對象;
    從所述內容項對象中獲取預設括號對包裹的所需段落的內容。
    5.如權利要求4所述的方法,其特征在于,解析所述內容流對象得到所需
    段落的步驟還包括:
    若所述預設括號對與所述第六預設鍵值之間存在預設標記,則將獲取的該
    內容項對應的內容附加到上一個內容項對應的內容中,構成完整的段落。
    6.一種處理PDF文件的裝置,其特征在于,包括:
    第一獲取模塊,用于獲取所需頁面;
    第二獲取...

    【專利技術屬性】
    技術研發人員:劉利川鄭程光孫偉豐羅正海李浩
    申請(專利權)人:北大方正集團有限公司北大方正信息產業集團有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产午夜av无码无片久久96| 国产精品无码专区在线播放| 无码毛片一区二区三区中文字幕 | 亚洲AV成人无码久久WWW| 蜜色欲多人AV久久无码| 亚洲中文字幕久久精品无码喷水| 无码国产福利av私拍| 天天看高清无码一区二区三区| 国产精品99精品无码视亚| 国产AV无码专区亚洲AV蜜芽| 亚洲中文字幕无码久久精品1| 性生交片免费无码看人| 亚洲精品无码永久中文字幕| 国产精品白浆在线观看无码专区| 免费看又黄又无码的网站| 亚洲大尺度无码专区尤物| 亚洲一级Av无码毛片久久精品| 色综合无码AV网站| 日韩放荡少妇无码视频| 在线精品自偷自拍无码中文| 蜜芽亚洲av无码精品色午夜| 国产50部艳色禁片无码| av无码人妻一区二区三区牛牛 | 中文无码一区二区不卡αv| 中文字幕av无码专区第一页| av无码一区二区三区| 好了av第四综合无码久久| 亚洲精品久久无码av片俺去也| 无码成人精品区在线观看| 日韩精品无码熟人妻视频| 久久人妻少妇嫩草AV无码专区| 亚洲日韩精品无码一区二区三区| 久99久无码精品视频免费播放| 无码精品人妻一区二区三区影院 | 无码免费又爽又高潮喷水的视频 | 亚洲av无码无线在线观看| 亚洲av永久无码精品秋霞电影秋 | 中文字幕日韩精品无码内射| 久久激情亚洲精品无码?V| 东京热无码一区二区三区av| 中文字幕无码无码专区|