资讯库 厂家库 产品库 / 咨询专线:400-6668-369 / 服务时间:8:00-18:00(非节假日)
欢迎来到洛阳花都办公家具网,花都家具集团,中国最大的密集架生产厂家,中国十大钢制家具厂家!

文本分类算法在高校档案管理中的应用研究

随着我国高等教育的飞速发展,各高校档案馆所管理的档案也越来越多,为此许多高校都已经装备了档案管理软件来对档案进行计算机管理。然而目前主流的针对高校的档案管理软件都没有对档案文件进行自动分类的功能,为减轻高校档案馆业务人员的工作量,本文探索一种适合高校档案的文本自动分类方法。<br>  本文首先较为系统的综述了中文文本分类算法的发展进程和当前文本分类算法的发展动态,详细的介绍了文本表示、文本特征选择、特征提取,特征加权,分类算法、分类器的构建、分类器性能评估的研究现状。作者根据高校所管理档案的特点,对传统的中文文本分类... 随着我国高等教育的飞速发展,各高校档案馆所管理的档案也越来越多,为此许多高校都已经装备了档案管理软件来对档案进行计算机管理。然而目前主流的针对高校的档案管理软件都没有对档案文件进行自动分类的功能,为减轻高校档案馆业务人员的工作量,本文探索一种适合高校档案的文本自动分类方法。
  本文首先较为系统的综述了中文文本分类算法的发展进程和当前文本分类算法的发展动态,详细的介绍了文本表示、文本特征选择、特征提取,特征加权,分类算法、分类器的构建、分类器性能评估的研究现状。作者根据高校所管理档案的特点,对传统的中文文本分类算法中的一些步骤进行了改进,根据高校档案的周期性、重复性、知识性等特点,同时借鉴档案馆业务人员在手工对档案进行分类时只需通过观察档案正题名和责任者信息即可确定其类别的分类方法。提出了依靠类别词库、停用词库和责任者词库等基础词库来支持以档案正题名和责任者为主要分析对象的基于语义的短文本多因素加权分类算法。在该算法中首先采用统计分析和人工经验相结合的方法为十个档案大类的每个小类分别构造了类别词及权值,再从已分类的档案信息中提取责任者信息构造了责任者词库,并通过人工经验构造了停用词库。
  在本算法中,首先通过责任者信息确定一份档案所属的大类,然后对档案正题名进行去停用词操作并提取其中包含的类别词和权值,之后通过加权求和比较大小确定该档案所属的类别。实验表明,在档案文件的正题名和责任者信息比较完整的情况下,该算法初次分类成功率达到了93%,不能准确分类的档案往往题名和责任者信息较为模糊或者部分信息缺失。对于未能准确分类的档案文件可以转人工处理,同时通过调整停用词库和类别词库及权重系数能进一步提高分类的成功率。此算法的成功运用大大的降低了高校档案馆业务人员的工作量,取得了较好的效果。

相关资讯