资讯库 厂家库 产品库 / 咨询专线:400-6668-369 / 服务时间:8:00-18:00(非节假日)
欢迎来到洛阳花都办公家具网,花都家具集团,中国最大的密集架生产厂家,中国十大钢制家具厂家!

基于相关反馈的个性化信息检索技术研究

随着信息技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、应用最广泛的信息库,如何有效检索这些海量信息成为当前研究的重要课题,因此信息检索(Information Retrieval,IR)技术越来越受到人们的关注。搜索引擎(Search Engine,SE)是信息检索技术在互联网领域的实际应用,目的是帮助用户快速、准确的在信息的海洋中找到自己需要的信息。目前,大部分搜索引擎广泛采用的信息检索技术无法满足不同用户背景、不同查询目的和不同检索时期的查询请求。个性化信息检索因为可以向用户提供个性化服务,提高搜索引擎检索结果的精度,成为搜索引擎... 随着信息技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、应用最广泛的信息库,如何有效检索这些海量信息成为当前研究的重要课题,因此信息检索(Information Retrieval,IR)技术越来越受到人们的关注。搜索引擎(Search Engine,SE)是信息检索技术在互联网领域的实际应用,目的是帮助用户快速、准确的在信息的海洋中找到自己需要的信息。目前,大部分搜索引擎广泛采用的信息检索技术无法满足不同用户背景、不同查询目的和不同检索时期的查询请求。个性化信息检索因为可以向用户提供个性化服务,提高搜索引擎检索结果的精度,成为搜索引擎技术的一个新的发展方向和研究热点。
  个性化信息检索需要有效地识别用户兴趣和偏好,并构建用户档案(User Profile,UP)。基于用户浏览行为和搜索历史等用户档案信息的相关反馈技术,由于不需要人工参与,并且可以收集到足够多的用户兴趣和爱好信息,所以广泛用于个性化信息检索。
  本文主要研究基于相关反馈的个性化信息检索技术。首先,定量地分析哪些查询将受益于个性化信息检索,即预测查询的个性化潜力。其次,针对个性化信息检索中关键问题,即如何处理动态反馈信息和少量反馈信息,研究基于相关反馈的查询优化技术。再次,根据一个商业搜索引擎的查询日志,建立评价个性化信息检索的数据平台,并用于研究基于用户档案(User Profile,UP)的个性化信息检索。最后,在构建中文评测数据平台时,研究如何确定索引单元,重点研究分词歧义对于信息检索性能的影响,并设计了新颖的混合索引。
  具体地说,本文包括以下四个方面的内容:
  (1)大多数关于个性化信息检索的研究都是针对所有查询的,很少有研究试图回答哪些查询将受益于个性化信息检索。把大规模人工知识库 Wikipedia作为额外的资源,用于预测查询的个性化潜力。从Wikipedia中挖掘出语言学知识,比如查询歧义词等。从Wikipedia中获得的知识可以减小查询日志的数据稀疏问题的影响,避免检索结果的存储空间。实验结果表明此方法的有效性和可行性。
  (2)相关反馈是提高信息检索系统性能的重要方法之一。在语言模型下,针对个性化信息检索中关键问题,即如何处理动态反馈信息和少量反馈信息,比较现有相关反馈方法和提出新的相关反馈方法。在研究动态反馈信息时,比较四种典型基于正相关反馈的查询优化方法,研究基于正负反馈的查询优化方法,并尝试一种新的查询优化方法,即线性双边模型,实验结果表明该模型的有效性。在研究少量反馈信息时,尝试相关反馈融合技术。在相关反馈融合中,为寻求伪相关反馈不稳定问题的解决途径,尝试建立一个分类模型,预测伪相关反馈的性能。此方法充分利用多源特征,较准确地预测伪相关反馈性能,而使原始查询、直接反馈和伪相关反馈的融合具备灵活的适应能力。在 TREC评测语料上的实验结果表明,此方法进一步提高检索效果。
  (3)个性化信息检索研究中的一个重要问题如何评价个性化信息检索。根据一个商业搜索引擎的查询日志,建立个性化信息检索评价数据平台。通过建立的数据平台,评价基于用户档案(User Profile,UP)的个性化信息检索。以前的研究使用基于用户长期搜索历史的用户档案,提高检索的精度。然而,关于用户档案的有效性,仍然存在很多问题,其中一个关键问题是用户新提交的查询很难受益于用户档案。一种解决方案是收集足够的用户档案,使之可以满足个性化信息检索的需要。尝试从查询日志中挖掘用户档案,主要思想是使用相似用户或者相同查询,抽取相关档案扩展当前用户档案。实验结果显示用户档案扩展能提供更好的检索结果。
  (4)在构建中文评测数据平台时,一个重要的问题是如何确定索引单元。中文信息检索中常用的索引单元是词和二元文法。以词为索引单元,会受到未登录词和分词歧义的影响,而以二元文法为索引单元,会占用大量的存储空间。因此,一些研究者提出使用混合索引,同时使用词和二元文法。然而,这些研究只涉及未登录词的处理,而没有考虑分词歧义的影响。于是,重点研究分词歧义对于信息检索性能的影响,并设计了新颖的混合索引。在TREC数据集上的实验结果显示,新颖的混合索引不但可以减少未登录词和分词歧义的影响,而且有效地提高了检索效率。

目录概览

基于相关反馈的个性化信息检索技术研究 目次

基于相关反馈的个性化信息检索技术研究

RESEARCH ON TECHNOLOGIES OF PERSONALIZED INFORMATION RETRIEVAL BASED ON RELEVANCE FEEDBACK

摘 要

Abstract

目录

Contents

+

第1章 绪 论

+

1.1 课题研究的背景和意义

1.1.1个性化信息检索的研究背景

1.1.2个性化信息检索的研究意义

+

1.2 个性化信息检索相关工作综述

1.2.1查询个性化潜力

1.2.2个性化信息检索

1.2.3个性化信息检索评价

+

1.3 本文主要工作

+

1.3.1 本文主要实验数据和工具

1.3.1.1 实验数据

1.3.1.2 实验工具

1.3.2 本文主要研究内容

1.4 本文章节安排

+

第2章 基于Wikipedia的查询个性化潜力预测

2.1 引言

+

2.2 相关工作综述

2.2.1 个性化信息检索和检索结果多样化

2.2.2 上同种类查询的研究

2.2.3 Wikipedia知识挖掘和应用研究

+

2.3 Wikipedia知识挖掘

+

2.3.1 Wikipedia结构

2.3.1.1 三类网页

2.3.1.2 目录系统

+

2.3.2 基于Wikipedia知识的特征

2.3.2.1 Wikipedia中挖掘知识类型

2.3.2.2 基于Wikipedia知识的特征

2.3.3 Wikipedia特征和查询个性化潜力的相关分析

+

2.4 查询个性化潜力预测

2.4.1预测模型使用的特征

2.4.2查询个性化潜力的衡量指标

2.4.2预测:分类还是回归?

+

2.5 实验与结果分析

2.5.1 实验数据

2.5.2 实验一:查询日志和Wikipedia的覆盖率

2.5.3 实验二:模型性能

2.5.4 实验三:上同机器学习算法性能比较

2.5.5 实验四:特征贡献

2.6 讨论

2.7 本章小结

+

第3章 基于相关反馈的查询优化

3.1 引言

3.2 相关工作综述

+

3.3 基于正负反馈的查询优化

3.3.1 Rocchio

3.3.2线性双边模型

+

3.4 基于多源特征的伪相关反馈性能预测

+

3.4.1多源分类特征

3.4.1.1 查询特征

3.4.1.2 伪相关反馈特征

3.4.1.3直接反馈特征

3.4.2分类模型

+

3.5 基于相关反馈融合的查询优化

3.5.1基本检索模型

3.5.2伪相关反馈

3.5.3直接反馈

3.5.4相关反馈融合

+

3.6 实验

+

3.6.1 实验一:基于正反馈的查询优化方法对比研究

3.6.1.1 基于正反馈的典型查询优化方法

(1) 相关模型(Relevance Model)

(2) 混合模型(mixture model)

(3) 差异最小化模型(divergence minimization model)

3.6.1.2查询优化方法对比实验

3.6.2 实验二:基于正负反馈的查询优化方法

3.6.3 实验三:基于多源特征的伪相关反馈性能预测

+

3.6.4 实验四:基于相关反馈融合的查询优化

3.6.4.1 相关反馈融合的上限

3.6.4.2 实验设置

3.6.4.3 实验结果

3.7 本章小结

+

第4章 基于User Profile的个性化信息检索

4.1 引言

4.2相关工作综述

4.3 个性化信息检索框架

+

4.4 用户档案

4.4.1用户档案组件

4.4.2用户档案权重

4.4.3用户档案扩展

+

4.5 基于查询日志的用户档案挖掘

4.5.1 基本定义

4.5.2 三分图上资源分配算法

+

4.6 实验与结果分析

+

4.6.1实验数据与设置

4.6.1.1文档集合

4.6.1.2三分图与测试查询

4.6.1.3评价标准

+

4.6.2实验结果与讨论

4.6.2.1上同的用户档案组件的效果

4.6.2.2上同用户档案扩展方法的效果

4.6.2.3平滑参数敏感性分析

4.7本章小结

+

第5章 中文信息检索中混合索引研究

5.1 引言

5.2 分词歧义

+

5.3 混合索引

5.3.1 混合索引中的伪歧义

5.3.2 新颖的混合索引

+

5.4 实验与结果分析

5.4.1 实验设置

5.4.2 实验结果及分析

5.4.3 词典规模的影响

5.5 本章小结

结 论

参考文献

攻读博士学位期间发表的论文及其它成果

哈尔滨工业大学学位论文原创性声明及使用授权说明

致 谢

个人简历

相关资讯