电子政务中中文文本分类技术的应用

来源:  投稿人:   浏览次数:

电子政务是指政府机构运用现代计算机技术和网络技术,将其管理和服务职能转到网络上去完成,同时实现政府组织机构和工作流程的重组优化,超越时间和部门分隔的制约,向社会提供高效、优质、规范、透明和全方位的管理和服务。电子政务建设的实质就是“以网络为工具,以用户为中心,以应用为灵魂,以便民为目的”,而电子政务建设的核心部分就是电子政务信息资源共享。这种共享是建立在政府资源信息化的技术之上的,大量的政府业务将以信息的形式存在和产生效益。由此可见,信息已成为现代社会资源的重要部分,如何建设和管理信息资源,如何有效地共享和利用信息资源,是当前电子政务建设的重点问题和面临的新挑战。
(一)电子政务信息的特点
  当前,我国党政系统的信息80%以上都是以文档形式存在,其中公文占绝大多数,据统计,90%以上的用户目前都是应用OFFICE或是WPS应用系统,而公文在信息标引上又具有其自身的特点。
1、具有严格的格式要求。从字体、大小、排版格式都有严格的要求。特别是对公文的主题词的定义上。主题词在我国党政机关中的应用最早可以追溯到1985年。1991年,中办《公文主题词表》通过了“七五”国家重点科技攻关项目有关课题的技术鉴定,1993年9月和1994年1月,中办、国办先后规定:凡报送中办、国办的正式文件,均需标注主题词。1997年12月和1998年8月,国办和中办先后修订了各自的《公文主题词表》。随着电子政务的兴起,国家有关方面意识到,主题词是整个政务信息资源库内信息资源组织,与管理以及库际资源管理与交换的基础。是指导各类政务信息采集、加工、整合和有效使用的统帅与核心,是沟通信息孤岛的桥梁。通过主题词严格的语义内涵和位属关联,建立所有资源在主题层的映射关系,可以实现全库资源的加工规范化、标识有序化以及信息共享化,从而为电子政务知识管理奠定坚实的基础。尽管主题词如此重要,但其标引工作长期以来只能通过言传身教、依靠经验来完成,熟练掌握标引主题词所用时间相当漫长。另外,人工标引的公文主题词又会产生因人而异、因时而异、因地而异的缺点,主题词的规范性、标准性和科学性难以得到有效保证。上述两个因素在现实中同时存在,制约了公文在党政机关档案整理、辅助决策、知识管理等工作中的效果和效率。
2、公文中主题词所处位置不同造成其信息价值不同。一是该词的词频,另一个是该词在网页中出现的位置,在网页中不同位置出现的语词的价值是不同的。正如张琪玉教授指出:“如果从针对文献整体的检准率的角度看,文献题名中的词最为有效。其次为文献中的小标题或者章节名、文献摘要。最后为文献中的词。”丁璇等人随机抽取了300篇经济类网页,对这些网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析、研究,得出了网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记等12个标引源的主题表达能力的先后顺序。得出的结论是首段文章标题HTML标记第一段首句网页标题第一段尾句第二段首句第二段尾句尾段第三段首句其它第三段尾句。并建议它们的加权值为5:5:5:4:4:4:2:2:2:2:2:2。
3、公文具有行业性比较明显。由于党政机关的职能分工不同,其公文信息的具体含义有别于部门之间的差异,主题词的应用频率各有所侧重。比如,组织部门中,使用“党的建设”、“人才队伍”、“执行力”等主题词相对频率比较高,而政府的粮食部门,“质检”、“配额”、“谷物”等词相对较高。因此,部门的主要职能给主题词带来了相对集中的特点。
4、主题词的标引具有失真性。在公文制作过程中,主题词的一些标引细则容易造成公文的具体信息失真:一是一般公文主题词的标引是引用专用词表中的正式词汇,当没有专指性的词时,可以选用概念相交、概念限定关系的词组配;二是若词表中无合适词进行组配时,应选用直接上位主题词标引;三是若无直接上位主题词标引时,可选用自由词进行标引。
从以上可以看出,公文有其自动标识的关键词汇——主题词,但其仅能反映出公文的大致内容和意思的表达,但对具体内容很难表达准确,因而,为弥补和克服以上情况所带来的不足,在考虑分类时,不能硬性地仅以主题词来进行分类,还要充分考虑文本中的关键词、词的位置权重等一些因素。
(二)中文文本分类技术
文本自动分类是指计算机将一篇文章自动地分派到一个或多个预定义的类别中去,它属于信息检索IR和机器学习ML的交叉学科。在国外大致经历了三个发展阶段:第一阶段(1958~1964)主要进行自动分类的可行性研究,第二阶段(1965~1974)进行自动分类的实验研究,第三阶段(1975至今)进人实用化阶段  。
我国文本自动分类的研究工作始于20世纪80年代初,大体上经历了从可行性探讨——辅助分类系统——自动分类系统三个发展阶段。1981年,侯汉清先生首先对中文文本自动分类进行了探讨,经过二十多年的研究,中文文本自动分类技术也日趋成熟,现有的中文文本分类技术绝大多数都用到了经典的向量空间模型(VSM),其中使用较多并且技术比较成熟的主要有基于统计学的分类技术和基于人工智能的自动分类技术。
    基于统计学的自动分类技术:分类算法建立在统计学的基础上,通过比较本特征向量与预定义类别特征向量的相似度来进行归类,该技术主要涉及主题词表和分类词表的建立、分词算法以及特征向量权重算法。常用的向量空间模型(VSM)、Naive Bayes方法、线性最小二乘法以及K邻近算法都属于这类技术。
基于人工智能的自动分类技术:利用人工智能建立专家系统,依靠知识工程技术构造知识库,把特定领域专家们的知识和经验等存放到预先建立的知识库中,然后构造推理机进行推理分类。该技术主要包括知识库的构造和推理机的构造两个部分,知识库中知识的表达主要有产生式表示、语义网络表示和逻辑表示等;推理方法主要有正向推理、反向推理和混合推理三种  。
总体上来说,中文文本分类还处于实验研究阶段,分类正确率约为60%~90% ,离形成商业化的软件投入实际应用尚有一定的距离。
(三)电子政务中中文文本自动分类研究存在的主要问题
1、分词算法
    中文分词是汉语文本自动处理的一个最基本的技术,现在已成为汉语文本自动处理技术发展的瓶颈。中文词不像英语等有自然的切分标记,中文词与词之间没有界定符,需要人为切分。此外汉语中存在大量的歧义现象,简单的分词往往会歪曲原文本真正的含义,到目前为止,现有的各种分词算法都未能很好的解决歧义切分问题。
2、文本的表示方法
    如何准确地表示中文文本是自动分类研究的另一个重点与难点,研究者们普遍采用带有权值的文本特征向量空间来表示文本,如何确定各特征向量的权值以及如何消除各特征项之间的“斜交”现象成了研究的重点。逆文献频率权值( IDF)、二进制加权法等是目前使用较多的权值计算法 ,但这些方法都存在一定的缺点,难以克服特征向量与文本之间的偏差;另外目前的文本表示法均不能体现出文本结构,难以表达段落、句子之间语义关系 ,这正是计算机无法像人类一样正确类分文本的一个重要原因。
3、电子字(词)典不够完善
目前许多自动分类系统只有一个分词词典和辅以一个同义词对照词典,词典中没有词性信息、语义信息,这大大影响了分类的正确性。另外,由于社会、科学发展异常迅猛,分支学科、边缘学科、大量新生词汇不断涌现使得词表的编制总是落后于社会的发展,导致基于词典的分词算法总会有一些词无法切分,从而影响了分类的准确率。
4、知识库规模小,知识库整体结构和增量化管理不够完善  
    现有的知识库都是由人工建立的,规模较小,其整体结构有待通过实践而进一步改善。目前,人工智能技术尚未能从根本上解决知识学习的问题,这就导致了知识库更新慢,不能
实现知识的自动增量,靠人工扩充知识库,要耗费大量的人力与物力,这正是基于人工智能的专家分类系统难以得到广泛应用的重要原因。
5、文本自动分类算法本身的局限性
    用诸如余弦公式求预定义类待分文本之间的相似度,实质上是比较两者之间共有关键词的数目,虽然也使用了各种权值计算方法,但这些权值在很大程度上依赖于关键词的频度或是否出现的信息,这必然会影响分类结果的准确性。另外,有些分词算法难以具体实现,如Naive Bayes概率模型,人们很难确定先验概率,因此求得的后验概率肯定存在一定偏差。
(四)电子政务中中文文本自动分类研究的建议
1、加强电子政务专用电子词典的建设
电子政务专用词典的建设是文本自动分类技术在这一领域应用的基础。目前由于中文文本分类技术的限制,并没有完善、实用的处理自然语言的分类系统。但是建立规模较小的专用词典却是切实可行的。如美国国立医学图书馆研制的一体化的医学语言(UMLS )就是一个很好的例子。结合电子政务信息的格式以及专有名词的特点,我们可以建立专业性很高的电子政务词典,这样就能大大提高自动分类的准确率。
另外研究建立概念词典体系,实现对文本基本内容的理解。通过增加词典信息的容量,来增强对语义信息的提取,可以通过使用缩略语词典、反义词、近义词和衍生词词典来进一步提高自动分类的准确率。
2、引入人工智能的研究成果,采用语料库技术获得词典信息与分词信息
    在进入20世纪90年代后,人工智能技术发展迅速,自然语言处理可以说是人工智能的一个分支,因此,今后应在自然语言处理领域进一步引人人工智能的研究成果,做好人工智能技术的在文本自动处理领域的应用研究。另外,可以加强语料库技术的研究,语料库技术至少在词典信息与分词信息两个方面支持自动分类研究。通过对电子政务信息生语料的统计分析,可以获得词典中未登录的词以及各个词之间的语义信息,建立更加合理完善的电子政务专用词典。有望通过这些信息解决自动切词中的歧义问题。
3、加强现有中文文本自动分类技术的应用研究
经过20多年的研究,中文文本自动分类技术在有些方面已经比较成熟,现已广泛应用于图书分类、网站导航以及基于内容的电子邮件自动分检系统等方面。最近,国内外又有研究者尝试采用分类技术进行文本相关性检索,为用户提供一种以文献作为检索入口进行智能扩检的检索途径 。如PrbMed就为用户提供了自动查找相关文献的功能  ;在国内,中国医学科学院信息研究所胡铁军等于2000年就开始了该方面的研究,现已取得了重大的突破。因而,加强现有中文文本自动分类技术在电子政务中的应用研究以及对各种分类系统(包括基于分类技术的其他应用系统)进行测试和评价,在电子政务信息分类方面进行试验性应用,应该是我们研究初期的重点。
Application of Chinese text automatic classification to E-Government
ABSTRACT: In combination with the actual conditions of China in building E-Government systems, this article studies the Chinese text automatic classification method used in E-Government, shows the main problem and gives advice. Then it points that building the electronic dictionary is very important to apply Chinese text automatic classification to E-Government.
KEYWORDS: E-Government; knowledge management; Chinese text; text classification; electronic dictionary; corpus

  

相关资讯

    无相关信息

免责声明:

① 凡本站注明“稿件来源:~幸福冒泡○oO~”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:~幸福冒泡○oO~”,违者本站将依法追究责任。

② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。