综合气象观测与信息网络科技创新
路金萍
[摘 要]近年来,网络科技信息结构化监测问题得到了业内的广泛关注,研究其相关课题有着重要意义。本文首先对相关内容做了概述,分析了结构化监测的思路和技术框架,并结合相关实践经验,分别从多个角度与方面就网络科技信息结构化监测的思路和技术方法实现展开了研究,阐述了个人对此的几点看法与认识,望有助于相关工作的实践。
[关键词]网络科技信息;结构化监测;思路;技术方法
中图分类号:TN711 文献标识码:A 文章编号:1009-914X(2017)31-0057-01
1 概述
在网络日益成为科学交流和科学传播最重要渠道的今天,很多与科技创新相关的重要科研信息,如科技战略、科研项目计划、科研投入、科技合作、科研成果、科技指标等都是首先通过网络渠道对外发布。美国奥巴马政府2011 年“国家创新战略” 和2012 年的“大数据计划”,欧盟的“创新积分榜”,世界经合组织的主要科学和技术指标等与科技创新态势密切相关的信息都可以直接通过网络获取。
网络科技信息是一种非结构化、无语义描述的信息,各个网站上各条网络科技信息的结构不同、内容布局不一,没有足够的元数据对信息进行语义描述,这使得网络科技信息在自动计算分析上的可用性差。如何实现网络科技信息从非结构的自由信息向可分析的结构化、语义化信息转化,成为网络科技信息开发利用中的主要问题。
2 结构化监测的思路和技术框架
科研机构在网页上发布的科技信息中,常常嵌有情报人员所关注的各种重点内容,如战略计划、科研项目、重要研究报告、科研创新投入、各项科技指标等。这些重点内容揭示了网页所表述的主体内容,而重点内容之间的相互关系揭示了这一网页中各项关系的骨干架构,反映着这一网页对于情报人员的价值。我们将这些反映网页信息的重点内容,称之为内容监测对象,将重点内容之间的各种关系( 如语法、共现、语义)称之为对象关系。
结构化监测的主要思路就是从采集到的特定科研领域的信息资源中,抽取出嵌入其中的内容监测对象,如科研机构、科研人员、重要战略、重大项目计划、重要研究报告、积分榜、R&D投入等,并通过语法分析、共现分析、语义计算等方法,构建监测對象关系,将自由文本转换为结构化的可计算的对象网络,再基于此,构建各类监测模型( 如重要内容判断、热点监测、重要对象跟踪等),实现对研究领域的态势监测。
具体而言,对于每一条从网络上采集到的科技信息资源(如HTML 页面、PDF 文件、WORD 文档等),网络科技信息自动监测系统首先通过知识抽取技术,从这些网络信息资源中抽取出嵌在其中的知识对象以及对象间的相互关系。例如,对于“July 13,2010,White House announcesNational HIV/AIDS Strategy”这一句子,通过内容监测对象的抽取,系统将识别出“National /HIV/AIDS Strategy”是一项重要战略( Strategy),形成了“对象,类型,时间戳”的结构,如“NationalHIV/AIDS Strategy,Strategy,July 13,2010”。同时,系统还通过语法分析,进一步分析出“WhiteHouse”发布了“National HIV/AIDS Strategy”,进一步形成了“对象,对象,关系,时间戳”的结构,如“White House,National HIV/AIDS Strategy,Announces,July 13,2010”。
通过对内容监测对象及对象关系的抽取,可以实现信息从自由文本向可供计算的结构化数据的转换。结合实际科研领域监测的需要,我们可基于这些结构化数据,实现重要目标对象的识别、重要目标对象的跟踪、热点内容的监测、特定情报内容的价值判断等功能,从而帮助战略情报人员实现相关科技领域的态势捕捉、态势跟踪、态势分析和态势的可视化表述。
3 网络科技信息结构化监测的思路和技术方法实现
3.1 构建监测本体指导结构化的目标内容
监测目标内容是指战略情报研究团队希望监测到的与本领域重大科研活动相关的内容。通过调研,笔者发现这种目标内容是可以通过结构化的方式来表达的。
战略情报研究团队需要随时了解目标科研机构在使命、愿景、战略定位、研究布局、主要科研活动、绩效指标、年报等方面的情况。国家领导人对相关领域的重要讲话、重大科技战略规划的出台、重要组织结构的调整、预算分配的变化、重要报告的发布、领域科技的重要进展等都是战略情报研究团队高度关注的目标内容。基于战略情报研究团队的监测内容需求,笔者提出了科研领域监测本体的概念,将科研领域的监测,转化为对一系列重点目标对象的监测,形成科研领域的监测本体,指导战略情报团队的内容监测。
科研领域监测本体从战略情报研究团队的需要出发,将科研领域监测的目标内容划分为四个大的概念范畴,即:被监测的目标主体、目标主题、目标活动和目标国家地区,并以此为基础进一步细化。
3.2 基于对象及对象关系抽取实现网页内容的结构化表示
通过监测对象的指示词典和实例词典实现对象语义类型的初步判断。在候选的名词词组中,通常会存在语义指示性很强的指示词(如University、Conference、Project 等) 揭示这一名词词组的语义类型( 如中心词为“Project”的往往是科研项目)。笔者根据领域监测本体,构建了各类监测对象的指示词典,并收集整理了一些重要监测对象的实例词典( 包括各个实例的规范表达、缩写、变体表达)。通过实例词典,可以较为精确地匹配出候选名词词组的语义类型;通过指示词典,在进一步精选候选名词词组的同时,初步实现对这一候选的名词词组的语义类型判断。
通过对象特征模式实现监测对象实例的识别。笔者根据一些监测内容对象实例在词形(首字母大小写、单复数等)、组成结构、指示词类型、指示词位置、上下文环境等方面的特点,构建了各类对象实例的识别模式和规则。对于上述经过语义初判的候选名词词组,进一步基于这一词组模式和规则的匹配,从中识别出需要的对象实例。
3.3 基于对象指标实现网页内容的情报价值计算
网络科技信息自动监测系统每天会采集到大量的网页信息。如何从这些网页信息中,准确发现并有效揭示有重要情报价值的信息是结构化信息监测需要解决的一个重要问题。笔者针对这一问题,提出了基于监测对象指标实现网页内容情报价值计算的方法,实现对所采集网络信息资源的情报价值判断,以揭示重要情报资源。
具体而言,这一方法基于情报人员对内容监测对象的重要程度判断,构建了相关领域的监测内容对象重要度指标体系。对于采集到的每条网络科技信息,分别从情报来源的权威性、情报的类型、情报中内容监测对象的重要程度、情报的科技相关度和情报的主题相关度五个维度进行情报价值的判断,在此基础之上,确定这条网络信息对于特定领域的情报价值。
4 结束语
综上所述,加强对网络科技信息结构化监测思路和技术方法的研究分析,对于其良好实践效果的取得有着十分重要的意义,因此在今后的网络科技信息结构化监测过程中,应该加强对其关键环节与重点要素的重视程度,并注重其具体实施措施与方法的科学性。
参考文献
[1] 张海懿 网络科技信息结构化监测进展[J] 卫星电视与宽带多媒体.2016(10):60-62.
[2] 吴庆伟网络科技信息结构化监测发展趋势[J]邮电设计技术2017(01):115-116.
[3] 余银风,袁秀森网络科技信息结构化监测方案探讨[J]邮电设计技术 2016(09):88-89.endprint