资讯库 厂家库 产品库 / 咨询专线:400-6668-369 / 服务时间:8:00-18:00(非节假日)
欢迎来到洛阳花都办公家具网,花都家具集团,中国最大的密集架生产厂家,中国十大钢制家具厂家!

档案领域垂直搜索技术的研究与实现

档案是一种十分重要的文件,任何国家、任何公民都跟它密切相关。时至今日,我国档案的信息化建设已经初步取得了一定成果,然而依然远落后于发达国家水平。如何促进档案的信息化建设,提高档案的利用率是国家研究的一个紧要课题。<br>   如今,搜索引擎因为具备实时高效的为用户提供精确信息的优势得到了人们的青睐,日渐成为人们获取自己所需信息的重要途径。然而通用搜索引擎往往覆盖面广,信息不够准确,不能满足特定用户的需求。近年来,面向特定领域的垂直搜索引擎迅速发展起来。与通用搜索引擎不同,它是面向特定领域的搜索,它可以做的更加专注,更加领... 档案是一种十分重要的文件,任何国家、任何公民都跟它密切相关。时至今日,我国档案的信息化建设已经初步取得了一定成果,然而依然远落后于发达国家水平。如何促进档案的信息化建设,提高档案的利用率是国家研究的一个紧要课题。
   如今,搜索引擎因为具备实时高效的为用户提供精确信息的优势得到了人们的青睐,日渐成为人们获取自己所需信息的重要途径。然而通用搜索引擎往往覆盖面广,信息不够准确,不能满足特定用户的需求。近年来,面向特定领域的垂直搜索引擎迅速发展起来。与通用搜索引擎不同,它是面向特定领域的搜索,它可以做的更加专注,更加领域化,可以搜索更加深层的信息,提供更加准确的资料。尽管如此,垂直搜索引擎还是有很多不尽人意的地方。对垂直搜索引擎的研究和改进是当前国际研究的一个热点。研究档案领域特点并针对这些特点对垂直搜索技术提出改进,将其应用于档案领域。研究专门针对该领域的垂直搜索引擎是本文研究的主要内容。
   首先,订制针对档案的主题爬虫获取有关档案的信息及档案文件是构建档案领域垂直搜索引擎的起始。档案是一种特殊的文件,具有原始性、存储格式规范、历史再现性、管理规范、编号统一等特点。档案的存储一般是在专门的存储机构的网站,由这些机构向社会或者特定人群开放。该领域的主题爬虫可以限定搜索范围,搜集档案相关的文档及档案文件并分析。为此,本文提出了面向该领域的链接分析算法,并引入使用无关文档来发现相关文档的策略构建主题爬虫。主题爬虫爬取的文档需进行内容分析、关键词提取并计算权值、抽取摘要等处理。计算关键字的权值时鉴于许多档案存在档案信息说明文档,其中包含主题词、责任者等重要信息,本文在TF-IDF(Term Frequency-Inverse Document Frequency)算法基础上做出改进。当一份档案存在这种信息时,其中的关键词权值为1;不存在这种信息或不在此处出现的关键词,根据关键词出现在标题、正文、摘要或其它位置分别赋予不同的权值。此外,利用文本处理技术对档案及相关的文档进行结构化处理,把文档转化为格式化的XML文件形式,来提供更加准确的搜索服务。用户查询过程中,使用静态摘要与动态摘要相结合的方式为用户提供更合理的文档简述。当档案文件中存在摘要时,取这些已经存在的摘要作为查询结果的摘要(静态摘要);否则,根据用户的输入,从索引中找出关键词所在位置,并抽取关键词所在的句子组成摘要返回用户(动态摘要)。在搜索时,通过用户投票的形式优化查询排序的结果。最后,本文设计了档案领域垂直搜索引擎的系统框架和流程,实现了本文提出的爬虫算法及爬取策略,实现了改进后的TF-IDF算法。
   作为对比,本文实现了一个最佳优先算法爬虫和TF-IDF算法。经研究和实验,使用本文提出的改进和应用方案,能够获得更好的结果。主题爬虫能够获得更多的档案和档案相关文件。使用改进后的方法,能够获得更准确的文档关键词权值。

目录概览

档案领域垂直搜索技术的研究与实现 目次

封面

声明

东华大学学位论文版权使用授权书

摘要:

英文摘要:

目录

+

1.引言

1.1 研究背景及意义

1.2 研究内容及成果

1.3 本文的结构

+

2 档案、档案的特点及国内外档案的信息化

2.1 档案

2.2 档案的特点

2.3 档案的信息化

+

3 垂直搜索技术与垂直搜索引擎的研究

3.1 垂直搜索及其内涵

3.2 垂直搜索引擎的结构

3.3 垂直搜索中的关键技术研究

+

4 档案领域垂直搜索技术的研究

4.1 档案的爬取

4.2 档案的分析与处理

4.3 摘要的抽取

4.4 查询排序与优化

+

5 档案领域垂直搜索的设计与实现

5.1 实现背景与环境

5.2 系统设计与实现

5.3 实验结果分析

+

6 工作总结及对未来的预料

6.1 工作总结

6.2 下一步工作及预料

参考文献

硕士期间发表和已录用的文章

致谢

相关资讯