双层PDF技术在档案管理中的应用

双层PDF技术在档案管理中的应用

ID:42627442

大小:98.69 KB

页数:4页

时间:2019-09-19

双层PDF技术在档案管理中的应用_第1页
双层PDF技术在档案管理中的应用_第2页
双层PDF技术在档案管理中的应用_第3页
双层PDF技术在档案管理中的应用_第4页
资源描述:

《双层PDF技术在档案管理中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、双层PDF文档的全文检索技术在数字档案馆中的应用【摘要】本文通过基于双层PDF文档的全文检索技术运用于B/S结构的档案管理系统的研究实践,实现了高效、快捷的档案检索,实现了高查全率和高查准率,界面友好,可靠安全,扩展性强。【关键词】双层PDF全文检索数字档案馆【分类号】G270随着社会信息化程度的提高,人们对档案信息资源的依赖程序也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切,发展数字档案馆是社会发展的必然,数字档案馆是一个提供档案远程服务和信息共享的平台。近年来,数字档案馆的研究和建设也如火如荼的开展起来,数字档案馆的平台

2、呈现多样化,档案数字化加工也存在着不同标准,建设数字档案馆的最终目标都是为了档案永久存储和高效利用,本文以中南大学数字档案馆建设实例,着重讨论数字档案馆建设中的全文检索技术。1概述1.1全文检索全文检索是计算机程序通过扫描文件中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据索引进行查找,类似于通过字典的检索字表查字的过程。档案的收藏是为了利用,档案检索应该把查全率摆在首位,兼顾查准率。数字档案馆要提供便捷的查询和高查全率,必须建设全文检索系统,全文检索系统由索引模块、分词模块、检索模块和存储模块等构成

3、。1.2双层PDF技术双层PDF文件是一种包含Text层和Image层的多层结构PDF格式文件,两层内容位置上一一对应。Image层是原始图像,保留了原始档案的效果;Text层是Image层的识别结果,支持选择、检索和复制等功能。通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。双层PDF加工是指将其它文件(可以是WORD、也可以是图像文件)转换,或者将标准纸质文档通过扫描后,经过去污、修正和OCR识别,通过软件生成双层PDF文档,然后挂接到档案管理系统的相应目录下。1.3全文检索的意义全文检索是一种很重要的检索途径,弥补

4、了目录检索的不足,也解决了目录著录不全、不规范等问题,大幅度提高了查全率。由于全文检索不是直接访问数据库,而是通过对数据库中的数据或者对双层PDF文件的Text层进行索引,因此用户搜索对数据库的压力为零,可以达到毫秒级的检索速度和每秒数百次的并发访问,大大提升检索速度。2全文检索在数字档案馆的实现2.1创建全文数据库我们采用湖南德立信软件开发有限公司的档案数字化加工系统和PDF车间进行纸质档案的数字化加工,实行流水线作业,将档案扫描加工为电子档案;使用双层PDF车间,将文件识别为文字,然后再将Text层和Image层组合成为一个完整的双层P

5、DF文件。我们仍然采用目前技术成熟、广为流行的基于目录数据库挂接方式来实现PDF文件的挂接,对档案内容数据及其元数据等相关信息建立永久联系,形成数据包。2.2创建索引将制作好的PDF文件和数据包通过调用德立信全文检索系统(DelisunText)内核函数建立对应的索引文件,抓取和解析数据,创建索引的过程实际上也就是将数字化档案原文及其原数据(包括结构化和非结构化数据)信息提取并创建索引文件的过程。2.2.1索引创建:为了对文档进行索引,DelisunText提供了五个基础的类,Document、Field、IndexWriter、1Anal

6、yzer、Directory。1、首先指定生成Index目录。2、建立索引器indexWriter,生成index对象,把一个个的Document对象加到索引中来。3、建立信息字段对象Field,描述文档的某个属性,如文件标题和内容可以用两个Field对象分别描述。4、建立文档对象Document,用来描述文档,内容可以从TXT、HTML等文档及数据库等多种途径获得,一个Document对象由多个Field对象组成的。也可以把一个Document对象看作数据库中的一个记录,而每个Field对象就是记录的一个字段。在一个文档被索引之前,首先需

7、要对文档内容进行分词处理,这部分工作就是由Analyzer类来完成。Analyzer类是一个抽象类,它有多个实现,针对不同的语言和应用需要选择适合的Analyzer。Analyzer把分词后的内容交给IndexWriter来建立索引。在分词时,如果用来进行索引的文档不是纯文本,先得转换成纯文本才能再进行操作;对同一索引,用来分词建立索引的分词器与用来查询的分词器必须是同一个,才能保证得到正确的查询结果。5、将Field添加到Document里面,再将Document添加到IndexWriter里面。6、优化indexWriter对象,Dir

8、ectory类代表了Lucene的索引的存储的位置,它是一个抽象类,有两个实现,一个是FSDirectory,它表示一个存储在文件系统中的索引的位置;其次是RAMDirector

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。