二.编写范例(中国矿业大学图书馆可视化云图案例)
学科分析服务可视化云图案例
案例编写人:邓志文 都平平 宋迎法 鲍劼 穆亚凤(中国矿业大学图书馆)
[内容摘要]
高校图书馆作为机构的信息情报中心,存储和管理着大量的研究文献和机构知识,对这些大量文献进行整体和梳理,并采用文献计量分析方法从中获取有价值的信息和知识是图书馆情报服务的重要内容,而这个过程需要科技分析人员花费大量时间和精力。科学知识图谱用可视化技术描述知识资源,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,揭示知识领域的动态发展规律,是图书馆提升情报服务的有效途径。
本案例设计了基于echarts的机构知识动态可视化云图平台,该平台实现了在不同粒度下的复杂合作关系、研究热点、机构分布等动态可视化云图展示,并有效揭示了机构的研宄主题、研宄前沿等信息,在一定程度上为机构、用户的决策需求提供了参考,取得了很好的实际应用效果。
[关键词] Echart 可视化 图谱分析 关系网 热点云
(英文标题、责任形式、摘要、关键词,暂略)
1.引言
图谱分析用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭知识领域的动态发展规律,让人们更加方便、准确地获取知识。
高校是知识的聚集地,不断产生着各种研究成果,也存储着大量的知识。这些成果知识包含着机构研究的内容和研究轨迹,如题名、关键词、作者等属性从不同角度显示了学术机构的“知识轨迹”,这些“知识轨迹”会因为机构知识的不断积累而变化,知识可视化需以知识元为基础,通过实时获取这些知识元数据,才能动态显示机构知识的动态变化过程。本案例通过分析机构知识可视化的关键技术,设计出了图书馆机构知识可视化云图平台的系统架构,并对平台进行了实现,为机构的学术发展状况、研究方向的确立、研究团队的构建等提供信息支持。
2.案例实施背景
中国矿业大学图书馆机构知识库现有数据量超过2万,后台元数据量超过200万条,为可视化分析提供了很好的源数据基础。由于所使用的开源平台Dspace没有对这些元数据进行多种可视化图谱展示的模块,很多时候需要供助第三方工具如Citespace 、VosViewer等对Dspace进行数据可视化的图谱分析,分析结果都是静态图,并没有将其嵌入到机构库实现其动态可视化。北京大学calis中心、清华大学以及中科院等院校采用可视化图谱分析技术对Dspace进行二次开发,实现了一定可视化设计,本案例以Echar为基础设计了一种内嵌的、易扩充和多元数据整合的机构知识可视化图谱平台。
3. 案例实施过程
3.1关键技术分析
(1)开源可视化开发包echarts技术分析
随着技术的不断升级,应用开发者也开始在用户体验上下功夫,比如数据可视化,将一大堆密密麻麻的数字转成图表形式,可以更直观地向用户展示数据之间的联系和变化情况,减少用户的阅读和思考时间,以便很好地做出决策,因此互联网中也出现了很多数据可视化开发包,如:Arbor.js、D3.js、Gephi、Tableau、Public、Echarts。在充分查阅资料后,我们选取了Echarts作为平台可视化开发包。ECharts是一款由百度前端技术部开发的,基于Javascript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。Echarts体积小,开源,而且是国内人员开发,文档丰富,学习相对容易。
(2)Dspace数据库结构分析
数据可视化需要有数据的支持,dspace平台的后台数据库为postgres,为了便于可视化设计,需要分析dspace数据库各表功能,尤其是条目表item、元数据表metadatavalue,确定各表之间的关系[7],建立用于数据可视化的视图,本文在dspace基础数据库的基础上自定义了5张视图。
(3)元数据的清洗
由人工向机构库录入数据的过程中,由于操作不规范,在格式和内容上存在一些问题,如关键词间用逗号、汉字的分号,内容中有不该存在的字符等,这就造成元数据中存在异常的数据,需要对这些引起异常的数据进行清洗去除。因此需要分析所有异常数据可能性,并采用一定的方法最大限度的降低这些异常数据。
《书乐园》杂志不仅是一本杂志,更重要的是它联合了东南大学的学生社团,充分发挥了善渊读书会、享悦读创意空间、蒲公英社团、东南风文学社、图管部等学生社团和组织的作用,与多项校园文化活动形成互动,《书乐园》是“书香校园”建设过程中最重要的参与力量。
3.2系统架构
本文设计的机构库可视化平台系统架构如图1所示,平台主要包括:数据存储层、应用服务层、数据表示层。
图1 机构知识可视化平台架构图
数据存储层:主要是指物理数据库层,该层即有postgres的元数据,也有自建的sql server中的元数据,为了向上层提供统一的数据格式,该层定义了各种视图views。
应用服务层:系统管理对元数据、机构、地理坐标等,可视化数据服务需要将获取的元数据进行:预处理、数据清洗、规范化、分析、采样和结构映射六个步骤,其中数据清洗把脏数据、敏感数据过滤掉,采样需要剔除和可视化结果无关的冗余数据,映射是调整数据结构到表示层能接受的格式。
数据表示层:可视化结果中我们肯定不可能把所有的数据统统展示出来,于是又涉及到包括标准化(归一化)、采样、离散化、降维、聚类等数据处理的方法。
3.3实施过程
(1)多数据源整合
为了向应用层提供统一规范的元数据,需要对各种源数据进行整合,从这些异构或异源的数据中自动抽取信息得到备用知识单元。对Dspace平台通过重新定义各视图组织各元数据,定义的几个关键视图主要包括:v_metadatavalue,v_community2collection。
其中v_metadatavalue为元数据视图,其视图逻辑如下,其关联了4个基础表。
视图v_community2collection为机构合集元数据,其视图逻辑如下。
(2)数据清洗
数据可视化的主要工作是数据准备,而数据准备一个关键工作是从知识元中消除概念的歧义,剔除冗余和错误的概念,确保知识的质量。网络爬取不可避免的会产生数据噪音,手动录入不规范或者原始数据的标注不统一也会导致元数据中存在错误、不规范的数据。本文通过sql拥有的方法对数据清洗,清洗方法包括:
1)数据输入造成的关键词空格问题。采用Trim()函数对元数据中的空格进行自动去除,保证数据的唯一性。
2)同一内容用不同关键词表达的问题,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。如机构的中国矿业大学、中国矿大、中国矿大徐州等不同的表达方式;知识融合以消除矛盾和歧义。系统通过定义一个单词库,并采用相似度计算,统一替换所有表述不统一的元数据,保证关键词表达内容的统一性,提高研究主题的集中度。
3)关键词的著录问题。如有的论文关键词为服务提供商/内容提供商;个人数字图书馆资源共享;信息技术SWOT,本文将其分别修改为“服务提供商、内容提供商、个人数字图书馆、资源共享、信息技术、SWOT”。这样可以使关键词可以更加准确地表达相关研究内容。
(3)信息抽取
知识图谱最适合处理关联密集型的数据,因此首先需要存放的是图谱中的节点和边的数据;本文采用自底向上的方式从各种数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达,本文定义了两个主要数据结构:
实体结构Node=(Category, Name, Value, Url);
实体关系三元组结构Link=(Source, Target, Weight)。
将各数据源中抽取出来的实体、关系都存储在以上两结构中,其中实体结构中的Value表示实体的重要程度,它反应到图谱中就是节点的大小,而关系三元组中Weight是表示两实体间关系的密切程度,它反应到图谱中就是节点间的距离。
(4)多级采样
各单位以及个人发文量不一样,差别也很大,如果在一篇文章合作者之间的关系都记做权值1的话,那么机构和作者之间发文量差别非常大,在图谱中展现的节点大小差距也会非常大,显示效果会不好,因此需要对数据源进行预处理,本文设计出一种不同粒度下的数据采样方法,以下是该方法实现的核心代码段。
系统中通过定义参数symsize,根据机构中总的节点权值进行一个加权平均得到symsiz值,然后所有节点的Value值与symsiz相除得到Value的最终值,最后保证了图谱中不会超现超级节点。
4. 实践效果
本文以中国矿业大学机构知识库为处理对象,实现了有关图谱的设计,如图2是显示的所有院系的作者合作关系图谱,不同院系颜色不一样。
图2 所有院系合作网络图
5. 结语
本文研究了基于echarts组件对机构知识库进行图谱可视的关键技术,并依据中国矿业大学图书馆dspace机构库进行了知识图谱分析的实现,设计出了动态的图谱分析平台,从结果来看,图谱显示美观,响应速度快,基本都在单位秒内得到可视化图谱,并且该平台在大数据的前提下实现了对信息的处理、知识计量和图形绘制,很好的揭示了知识领域的动态规律。
6. 附件
(1)单个机构合作网络图
(2)研究热点图
(3)合作机构区域分布图谱
案例作者的联系方式:都平平 13852146685 ppdu168@126.com