The embodiment of this application provides a method and device for generating PDF documents for network edition of scientific and technological papers. The internal links of related references among different contents in documents are determined by coding identification in document contents, and the first external links of references in documents and the second external links of related documents are determined. The internal links, the first external links and the basic citation fuses are also determined. The combination of information, the second external link and the document content can generate the PDF file of the network version, realize the related reading and extended reading of the document, facilitate users to search for the content of the document and expand the reading of the relevant content while reading, without excessive additional operation by users, which is simple, convenient, time-saving and labor-saving, and is conducive to improving users'interactive reading experience and sense of use.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種科技論文網(wǎng)絡(luò)版PDF文檔生成方法及裝置
本申請(qǐng)涉及文檔處理
,尤其是涉及一種科技論文網(wǎng)絡(luò)版PDF文檔生成方法及裝置。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的發(fā)展,科技論文與數(shù)字出版的理念相結(jié)合已成為發(fā)展趨勢(shì),網(wǎng)絡(luò)中存在很多文件都是以便攜式文檔格式(PortableDocumentFormat,PDF)顯示在網(wǎng)絡(luò)中。目前,在科技期刊和科技論文的出版及發(fā)布過(guò)程中,通常是以PDF文件的形式來(lái)進(jìn)行印刷出版的,或者發(fā)布到網(wǎng)站上,方便下載后進(jìn)行交流閱讀。但是,在采用PDF文件形式的科技期刊以及科技論文中,只能靜止閱讀,不能與互聯(lián)網(wǎng)資源相關(guān)聯(lián)以及交互閱讀,不適合于數(shù)字出版互聯(lián)網(wǎng)時(shí)代的發(fā)展要求,用戶體驗(yàn)差。
技術(shù)實(shí)現(xiàn)思路
有鑒于此,本申請(qǐng)?zhí)峁┝艘环N科技論文網(wǎng)絡(luò)版PDF文檔生成方法及裝置,以方便實(shí)現(xiàn)文檔交互閱讀,提高用戶的使用感。本申請(qǐng)實(shí)施例提供了一種科技論文網(wǎng)絡(luò)版PDF文檔生成方法,所述方法包括:從文檔的正文內(nèi)容中識(shí)別目標(biāo)內(nèi)容項(xiàng)的編碼標(biāo)識(shí),其中,所述文檔包括所述正文內(nèi)容以及所述正文內(nèi)容的釋義內(nèi)容;基于所述編碼標(biāo)識(shí),設(shè)置所述釋義內(nèi)容中與所述目標(biāo)內(nèi)容項(xiàng)對(duì)應(yīng)的釋義項(xiàng)與所述目標(biāo)內(nèi)容項(xiàng)之間的內(nèi)部關(guān)聯(lián)鏈接;確定所述釋義內(nèi)容中參考文獻(xiàn)的數(shù)字對(duì)象唯一標(biāo)識(shí)符DOI信息;基于所述DOI信息,確定所述參考文獻(xiàn)的引用源與所述參考文獻(xiàn)之間第一外部鏈接;確定關(guān)聯(lián)文檔的引文基本信息以及第二外部鏈接,其中,所述關(guān)聯(lián)文檔與所述文檔之間的關(guān)聯(lián)匹配度大于預(yù)設(shè)閾值;基于所述內(nèi)部關(guān)聯(lián)鏈接、所述第一外部鏈接、所述引文基本信息、所述第二外部鏈接、所述正文內(nèi)容和所述釋義內(nèi)容,生成與所述文檔相對(duì)應(yīng)的網(wǎng)絡(luò)版便攜式文檔格式PDF文件。 ...
【技術(shù)保護(hù)點(diǎn)】
1.一種科技論文網(wǎng)絡(luò)版PDF文檔生成方法,其特征在于,所述方法包括:從文檔的正文內(nèi)容中識(shí)別目標(biāo)內(nèi)容項(xiàng)的編碼標(biāo)識(shí),其中,所述文檔包括所述正文內(nèi)容以及所述正文內(nèi)容的釋義內(nèi)容;基于所述編碼標(biāo)識(shí),設(shè)置所述釋義內(nèi)容中與所述目標(biāo)內(nèi)容項(xiàng)對(duì)應(yīng)的釋義項(xiàng)與所述目標(biāo)內(nèi)容項(xiàng)之間的內(nèi)部關(guān)聯(lián)鏈接;確定所述釋義內(nèi)容中參考文獻(xiàn)的數(shù)字對(duì)象唯一標(biāo)識(shí)符DOI信息;基于所述DOI信息,確定所述參考文獻(xiàn)的引用源與所述參考文獻(xiàn)之間第一外部鏈接;確定關(guān)聯(lián)文檔的引文基本信息以及第二外部鏈接,其中,所述關(guān)聯(lián)文檔與所述文檔之間的關(guān)聯(lián)匹配度大于預(yù)設(shè)閾值;基于所述內(nèi)部關(guān)聯(lián)鏈接、所述第一外部鏈接、所述引文基本信息、所述第二外部鏈接、所述正文內(nèi)容和所述釋義內(nèi)容,生成與所述文檔相對(duì)應(yīng)的網(wǎng)絡(luò)版便攜式文檔格式PDF文件。
【技術(shù)特征摘要】
1.一種科技論文網(wǎng)絡(luò)版PDF文檔生成方法,其特征在于,所述方法包括:從文檔的正文內(nèi)容中識(shí)別目標(biāo)內(nèi)容項(xiàng)的編碼標(biāo)識(shí),其中,所述文檔包括所述正文內(nèi)容以及所述正文內(nèi)容的釋義內(nèi)容;基于所述編碼標(biāo)識(shí),設(shè)置所述釋義內(nèi)容中與所述目標(biāo)內(nèi)容項(xiàng)對(duì)應(yīng)的釋義項(xiàng)與所述目標(biāo)內(nèi)容項(xiàng)之間的內(nèi)部關(guān)聯(lián)鏈接;確定所述釋義內(nèi)容中參考文獻(xiàn)的數(shù)字對(duì)象唯一標(biāo)識(shí)符DOI信息;基于所述DOI信息,確定所述參考文獻(xiàn)的引用源與所述參考文獻(xiàn)之間第一外部鏈接;確定關(guān)聯(lián)文檔的引文基本信息以及第二外部鏈接,其中,所述關(guān)聯(lián)文檔與所述文檔之間的關(guān)聯(lián)匹配度大于預(yù)設(shè)閾值;基于所述內(nèi)部關(guān)聯(lián)鏈接、所述第一外部鏈接、所述引文基本信息、所述第二外部鏈接、所述正文內(nèi)容和所述釋義內(nèi)容,生成與所述文檔相對(duì)應(yīng)的網(wǎng)絡(luò)版便攜式文檔格式PDF文件。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述從文檔的正文內(nèi)容中識(shí)別目標(biāo)內(nèi)容項(xiàng)的編碼標(biāo)識(shí)之前,所述方法包括:對(duì)文檔正文內(nèi)容中的目標(biāo)內(nèi)容項(xiàng)進(jìn)行標(biāo)注處理;基于所述標(biāo)注處理,確定所述目標(biāo)內(nèi)容項(xiàng)的編碼標(biāo)識(shí),其中,每一目標(biāo)內(nèi)容項(xiàng)具有唯一編碼標(biāo)識(shí)。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述編碼標(biāo)識(shí),設(shè)置所述釋義內(nèi)容中與所述目標(biāo)內(nèi)容項(xiàng)對(duì)應(yīng)的釋義項(xiàng)與所述目標(biāo)內(nèi)容項(xiàng)之間的內(nèi)部關(guān)聯(lián)鏈接,包括:確定所述釋義內(nèi)容中與所述目標(biāo)內(nèi)容項(xiàng)對(duì)應(yīng)的釋義項(xiàng)的引用位置信息;將所述引用位置信息與所述編碼標(biāo)識(shí)進(jìn)行結(jié)構(gòu)化關(guān)聯(lián)引用;基于所述結(jié)構(gòu)化關(guān)聯(lián)引用,設(shè)置所述釋義項(xiàng)與所述釋義項(xiàng)對(duì)應(yīng)的目標(biāo)內(nèi)容項(xiàng)之間的內(nèi)部關(guān)聯(lián)鏈接。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述釋義內(nèi)容中參考文獻(xiàn)的數(shù)字對(duì)象唯一標(biāo)識(shí)符DOI信息,包括:確定所述釋義內(nèi)容中參考文獻(xiàn)的文獻(xiàn)元信息;基于所述文獻(xiàn)元信息和DOI信息注冊(cè)服務(wù)商接口,反解析獲得所述參考文獻(xiàn)相應(yīng)的DOI信息。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定關(guān)聯(lián)文檔的引文基本信息以及第二外部鏈接,包括:基于所述文檔的元數(shù)據(jù)信息及加權(quán)設(shè)置,確定與所述文檔關(guān)聯(lián)匹配的關(guān)聯(lián)文檔;在所述釋義內(nèi)容中顯示所述關(guān)聯(lián)文檔的引文基本信息;確定所述文檔與所述關(guān)聯(lián)文檔的第二外部鏈接。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述內(nèi)部關(guān)聯(lián)鏈接、所述第一外部鏈接、所述引文基本信息、所述第二外部鏈接、所述正文內(nèi)容和所述釋義內(nèi)容,生成與所述文檔相對(duì)應(yīng)的網(wǎng)絡(luò)版便攜式文檔格式PDF文件,包括:對(duì)所述釋義內(nèi)容中的圖片內(nèi)容進(jìn)行每英寸點(diǎn)數(shù)DPI分辨率壓縮處理;將所述內(nèi)部關(guān)聯(lián)鏈接添加至所述正文內(nèi)容中,并將所述第一外部鏈接添加至所述釋義內(nèi)容中,將所述引文基本信息及所述第二外部鏈接添加至所述正文內(nèi)容中;基于添加有所述內(nèi)部關(guān)聯(lián)鏈接的所述正文內(nèi)容,添加有所述第一外部鏈接的所述釋義內(nèi)容,以及添加有所述引文基本信息與所述第二外部鏈接的所述關(guān)聯(lián)文檔內(nèi)容,生成網(wǎng)絡(luò)版P...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王盛華,李艷紅,徐柱芝,王德剛,
申請(qǐng)(專利權(quán))人:北京仁和匯智信息技術(shù)有限公司,
類型:發(fā)明
國(guó)別省市:北京,11
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。