大数据可视分析综述


软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn Journal of Software,2014,25(9):1909−1936 [doi: 10.13328/j.cnki.jos.004645] http://www.jos.org.cn ©中国科学院软件研究所版权所有. Tel/Fax: +86-10-62562563 大数据可视分析综述∗ 任 磊 1, 杜 一 2, 马 帅 3, 张小龙 4, 戴国忠 5 1(北京航空航天大学 自动化科学与电气工程学院 ,北京 100191) 2(中国科学院 计算机网络信息中心 科学数据中心 ,北京 100190) 3(北京航空航天大学 计算机学院 ,北京 100191) 4(College of Information Sciences and Technology, Pennsylvania State University, USA) 5(人机交互北京市重点实验室 (中国科学院 软件研究所 ),北京 100190) 通讯作者: 任磊, E-mail: renlei@buaa.edu.cn, http://www.buaa.edu.cn 摘 要: 可视分析是大数据分析的重要方法.大数据可视分析旨在利用计算机自动化分析能力的同时,充分挖掘 人对于可视化信息的认知能力优势 ,将人、机的各自强项进行有机融合 ,借助人机交互式分析方法和交互技术 ,辅助 人们更为直观和高效地洞悉大数据背后的信息、知识与智慧 .主要从可视分析领域所强调的认知、可视化、人机交 互的综合视角出发,分析了支持大数据可视分析的基础理论 ,包括支持分析过程的认知理论、信息可视化理论、人 机交互与用户界面理论.在此基础上 ,讨论了面向大数据主流应用的信息可视化技术——面向文本、 网络(图)、时空、 多维的可视化技术.同时探讨了支持可视分析的人机交互技术 ,包括支持可视分析过程的界面隐喻与交互组件、多 尺度/多焦点/多侧面交互技术、面向 Post-WIMP 的自然交互技术.最后,指出了大数据可视分析领域面临的瓶颈问 题与技术挑战. 关键词: 大数据;可视化;信息可视化;可视分析;人机交互;云计算 中图法分类号: TP311 中文引用格式 : 任磊,杜一,马帅,张小龙,戴国忠.大数据可视分析综述 .软件学报,2014,25(9):1909−1936. http://www.jos.org.cn/ 1000-9825/4645.htm 英文引用格式 : Ren L, Du Y, Ma S, Zhang XL, Dai GZ. Visual analytics towards big data. Ruan Jian Xue Bao/Journal of Software, 2014,25(9):1909−1936 (in Chinese). http://www.jos.org.cn/1000-9825/4645.htm Visual Analytics Towards Big Data REN Lei1, DU Yi2, MA Shuai3, ZHANG Xiao-Long4, DAI Guo-Zhong5 1(School of Automation Science and Electrical Engineering, BeiHang University, Beijing 100191, China) 2(Scientific Data Center, Computer Network Information Center, The Chinese Academy of Sciences, Beijing 100190, China) 3(School of Computer Science and Engineering, BeiHang University, Beijing 100191, China) 4(College of Information Sciences and Technology, Pennsylvania State University, USA) 5(Beijing Key Laboratory of Human-Computer Interaction (Institute of Software, The Chinese Academy of Sciences), Beijing 100190, China) Corresponding author: REN Lei, E-mail: renlei@buaa.edu.cn, http://www.buaa.edu.cn Abstract: Visual analytics is an important method used in big data analysis. The aim of big data visual analytics is to take advantage of human’s cognitive abilities in visualizing information while utilizing computer’s capability in automatic analysis. By combining the advantages of both human and computers, along with interactive analysis methods and interaction techniques, big data visual analytics can ∗ 基金项目: 国家自然科学基金 (61103096); 国家高技术研究发展计划 (863)(2013AA041302); 国家重点基础研究发展计划 (973) (2014CB340300); 中央高校基本科研业务基金 收稿时间: 2014-04-08; 定稿时间: 2014-05-14 1910 Journal of Software 软件学报 Vol.25, No.9, September 2014 help people to understand the information, knowledge and wisdom behind big data directly and effectively. This article emphasizes on the cognition, visualization and human computer interaction. It first analyzes the basic theories, including cognition theory, information theory, interaction theory and user interface theory. Based on the analysis, the paper discusses the information visualization techniques used in mainstream applications of big data, such as text visualization techniques, network visualization techniques, spatio-temporal visualization techniques and multi-dimensional visualization techniques. In addition, it reviews the interaction techniques supporting visual analytics, including interface metaphors and interaction components, multi-scale/multi-focus/multi-facet interaction techniques, and natural interaction techniques faced on Post-WIMP. Finally, it discusses the bottleneck problems and technical challenges of big data visual analytics. Key words: big data; visualization; information visualization; visual analytics; human-computer interaction; cloud computing 当前,我们的世界已经迈入大数据 (big data)时代.随着互联网、物联网、云计算等信息技术的迅猛发展 ,信 息技术与人类世界政治、经济、军事、科研、生活等方方面面不断交叉融合 ,催生了超越以往任何年代的巨量 数据.遍布世界各地的各种智能移动设备、传感器、电子商务网站、社交网络每时每刻都在生成类型各异的数 据.截至 2012 年,全世界每天产生 2.5EB(2.5×1018)的数据(http://www.ibm.com/big-data/us/en/).大数据具有 4V 特 征,即:体量巨大(volume)、类型繁多(variety)、时效性高(velocity)以及价值高密度低 (value),给人们带来了新的 机遇与挑战.《Nature》于 2008 年出版了大数据专刊“big data”,专门讨论了巨量数据对于互联网、经济、环境 以及生物等各方面的影响与挑战 [1].《Science》也于 2011 年出版了如何应对数据洪流 (data deluge)的专刊 “Dealing with Data”[2],指出如何利用宝贵的数据资产推动人类社会的发展.如今,大数据已成为新兴的学术研究 热点,并被认为是继云计算和物联网之后又一个具有革命性的信息技术. 大数据分析是大数据研究领域的核心内容之一[3].Google 首席经济学家、UC Berkeley 大学 Hal Varian 教 授指出:“数据正在变得无处不在、触手可及 ;而数据创造的真正价值,在于我们能否提供进一步的稀缺的附加服 务.这种增值服务就是数据分析 [4].”数据的背后隐藏着信息 ,而信息之中蕴含着知识和智慧 .大数据作为具有潜 在价值的原始数据资产 ,只有通过深入分析才能挖掘出所需的信息、知识以及智慧 .未来人们的决策将日益依 赖于大数据分析的结果,而非单纯的经验和直觉.美国《时代》杂志于 2012 年 11 月指出,奥巴马的成功连任背 后所依托的关键即是两年来对大数据的分析与挖掘 (http://swampland.time.com),例如,通过对海量选民微博的 分析得出选民对总统候选人的喜好.中国移动“大云”也是根据对 7 亿 3 千万以上用户的数据进行分析,对用户偏 好和关注热点等进行归类 ,用于改善用户体验和辅助市场决策 .当前,大数据分析方法论以及支撑技术的研究成 为大数据领域的核心焦点之一. 通常,数据的分析过程往往离不开机器和人的相互协作与优势互补 .从这一立足点出发 ,大数据分析的理论 和方法研究可以从两个维度展开 :一是从机器或计算机的角度出发 ,强调机器的计算能力和人工智能 ,以各种高 性能处理算法、智能搜索与挖掘算法等为主要研究内容 ,例如基于 Hadoop 和 MapReduce 框架的大数据处理方 法[5]以及各类面向大数据的机器学习和数据挖掘方法等 ,这也是目前大数据分析领域的研究主流 ;另一个维度 从人作为分析主体和需求主体的角度出发 ,强调基于人机交互的、符合人的认知规律的分析方法 ,意图将人所 具备的、机器并不擅长的认知能力融入分析过程中,这一研究分支以大数据可视分析(visual analytics of big data)[6,7]为主要代表. 一幅图胜过千言万语.人类从外界获得的信息约有 80%以上来自于视觉系统[8,9],当大数据以直观的可视化 的图形形式展示在分析者面前时 ,分析者往往能够一眼洞悉数据背后隐藏的信息并转化知识以及智慧 .如图 1 所示是互联网星际图(http://internet-map.net/),将 196 个国家的 35 万个网站数据整合起来,并根据 200 多万个网 站链接将这些星球通过关系链联系起来 ,每一个星球的大小根据其网站流量来决定 ,而星球之间的距离远近则 根据链接出现的频率、强度和用户跳转时创建的链接 .我们可以立即看出,Facebook 以及 Google 是流量最大的 网站.这些“一眼”识别出的图形特征(例如异常点、相似的图形标记 )在视觉上容易察觉,而通过机器计算却很难 理解其涵义[10].因此,大数据可视分析是大数据分析不可或缺的重要手段和工具 .事实上 ,在科学计算可视化领 域以及传统的商业智能 (business intelligence,简称 BI)领域,可视化一直是重要的方法和手段 [11].然而,这些研究 领域并未深入地结合人机交互的理论和技术 ,因此难以全面地支持可视分析的人机交互过程 .同时,大数据本身 任磊 等:大数据可视分析综述 1911 的新特点也对可视分析提出了更为迫切的需求与更加严峻的挑战 .总体而言 ,当前对于大数据可视分析的研究 仍十分初步,对于这一研究领域的理论、方法和技术体系至今尚未形成. Fig.1 Internet map 图 1 互联网星际图 Wong 等人[12]在“极端大规模数据可视分析面临的十大挑战”一文中指出,未来的十大挑战主要聚焦于可视 分析领域所关注的核心主题 :认知、可视化、人机交互的深度融合 .本文主要从认知、可视化、人机交互的综 合视角出发 ,讨论大数据可视分析的基础理论、关键技术以及面临的挑战 .本文对于大数据管理以及挖掘等主 题不作过多讨论. 1 信息可视化、人机交互、可视分析的基本概念 Card 等人对信息可视化(information visualization)的定义为:对抽象数据使用计算机支持的、交互的、可视 化的表示形式以增强认知能力 [9].与传统计算机图形学以及科学可视化研究不同 ,信息可视化的研究重点更加 侧重于通过可视化图形呈现数据中隐含的信息和规律 ,所研究的创新性可视化表征旨在建立符合人的认知规 律的心理映像(mental image).经过 20 余年的发展,信息可视化已经成为人们分析复杂问题的强有力工具[8]. 人机交互 (human-computer interaction)的定义为:人与系统之间通过某种对话语言 ,在一定的交互方式和技 术支持下的信息交换过程 [13].其中的系统可以是各类机器 ,也可以是计算机和软件 .用户界面 (user interface)或 人机界面指的是人机交互所依托的介质和对话接口 ,通常包含硬件和软件系统 [13].信息可视化的概念最早即是 在 ACM“用户界面软件与技术”会议中提出,其本质是一种交互式的图形用户界面范型.人机交互的发展一方面 强调研究智能化的用户界面 ,将计算机系统变成一个有思想、有个性、有观点的智能机器人 ;另一方面强调充 分利用计算机系统和人各自的优势 ,弥补彼此的不足,共同协作来分析和解决问题 .具体而言,主要研究方向包 括符合认知科学的用户界面范型、交互方式以及相应的交互技术等 ,例如多通道用户界面及自然交互技术、可 触摸用户界面及手势交互技术、智能自适应用户界面及情境感知交互技术等. 如图 2 所示,可视分析(visual analytics)是科学/信息可视化、人机交互、认知科学、数据挖掘、信息论、决 策理论等研究领域的交叉融合所产生的新的研究方向[14].根据 Thomas 和 Cook 在 2005 年给出的定义:可视分 析是一种通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学与技术 [15].可视分析的 运行过程可看作数据 →知识→数据的循环过程,中间经过两条主线 :可视化技术和自动化分析模型 ,从数据中洞 悉知识的过程主要依赖两条主线的互动与协作.自 2006年起,可视化领域国际顶级会议IEEE VisWeek开始每年 举办“可视分析科学与技术”会议(IEEE Conf. on Visual Analytics Science and Technology,简称 IEEE VAST).可视 分析不再是一个交叉研究的新术语 ,而成为一个独立的研究分支 .可视分析概念提出时拟定的目标之一即是面 向大规模、动态、模糊、或者常常不一致的数据集来进行分析 [11],因此可视分析的研究重点与大数据分析的需 1912 Journal of Software 软件学报 Vol.25, No.9, September 2014 求相一致.近年来,可视分析研究很大程度上也围绕着大数据的热点领域 ,例如互联网、社会网络、城市交通、 商业智能、气象变化、安全反恐、经济与金融等. 大数据可视分析是指在大数据自动分析挖掘方法的同时 ,利用支持信息可视化的用户界面以及支持分析 过程的人机交互方式与技术 ,有效融合计算机的计算能力和人的认知能力 ,以获得对于大规模复杂数据集的洞 察力(insight). Fig.2 Scope and process of visual analytics[11,14] 图 2 可视分析的概念范畴和运行机制[11,14] 2 支持可视分析的基础理论 2.1 支持分析过程的认知理论模型 2.1.1 意义建构(sense-making)理论模型 数据分析的过程往往包含数据中获取信息并形成知识的过程 ,从信息论[16,17]的角度出发 ,Dervin 等人[18,19] 对信息的本质重新定义 ,突破了把信息作为独立于认知主体之外的孤立实体的局限性 ,提出了意义建构理论 .这 一理论认为 :信息是由认知主体在特定时空情境 (context)下主观建构所产生的意义 ,知识也是认知主体的主观 产物.信息意义的建构过程是人的内部认知与外部环境交互行为的共同作用结果 .因此,信息不是被动观察的产 物,而是需要人的主观的交互行动 .知识也是人在交互过程中通过不断建构、修正、扩展现存的知识结构而获 得的,并且与 Piaget[20]的认知发展理论(theory of cognitive development)相一致,即经过图示、同化、顺应和平衡 的建构过程 ,将从环境中获取的信息纳入并整合到已有的认知结构 ,并且改变原有的认知结构或者创造新的认 知结构,以达到动态的平衡. 通常,在数据分析过程中搜索和获取信息的行为 ,本质上就是一种意义建构行为 .Pirolli 和 Card 等人[21−23] 提出的信息觅食(information foraging)理论,为意义建构过程中的搜索行为提供了认知理论基础.这一理论认为: 信息环境分布着很多的信息碎片(information patch),数据分析者或信息搜索者根据信息线索(information scent)[24−26]在信息碎片之间移动 ,移动的轨迹选择 ,旨在最大化收益而最小化成本 .信息觅食的时空情境包括搜 索目标、分析者的先验知识以及当前位置等 .数据分析者会根据所处的时空情境 ,结合特定的分析任务制定相 应的信息觅食即搜索计划. Card 等人基于上述认知理论 ,建立了信息可视化和分析过程中的意义建构循环模型 [9].分析者根据分析任 务需求进行信息觅食,在信息可视化界面中借助各种交互操作来搜索信息,如对于可视化界面进行概览、缩放、 过滤、查看细节、检索等 .在信息觅食的基础上,分析者开始搜索并分析潜在的规律和模式,可通过记录、聚类、 分类、关联、计算平均值、设置假设、寻找证据等方法抽象提取出信息中含有的模式 .然后,分析者利用发现 的模式开始分析解决问题的过程,可通过对可视化界面进行操纵来设定假设、读取事实、分析对比、观察变化 等.在对问题进行分析推理过程中创造新知识 ,并且形成一定的决策 ,或者开始进一步的行动 ,带着任务需求开 始新一轮的循环.以上所述的意义建构循环模型中的几个关键步骤之间还存在着多种转移路径和依赖关系 ,描 任磊 等:大数据可视分析综述 1913 述了人在数据分析时的主要认知行为、过程及关系. 2.1.2 人机交互分析过程的用户认知模型 根据认知发展理论 ,在分析推理过程中 ,人的强项是在感受到外界刺激 (如可视化界面中的形状色彩元素 ) 时,能够瞬间将新感知到的信息纳入已有的知识结构中;同时,对于感知到的与现有知识结构不一致的信息,也 能够迅速找到相似的知识结构予以标记 ,或者创造一个新的知识结构 .而计算机在分析推理过程中的强项是具 有远远超过人的工作记忆 ,同时具有强大的计算能力以及信息处理能力 ,并且不带有任何主观认知偏向性 . Green 等人[27]根据人和计算机各自的优势 ,对分析推理过程中各自的角色进行建模 ,提出了支持人机交互可视 分析的用户认知模型. 该模型以信息/知识发现(discovery)活动为核心,将认知模型抽象为几个支持上述核心的关键活动: • 第 1 个活动是通过实例或者设定模式来进行搜索 ,这一过程由用户发起 ,计算机予以响应并形成交互 分析行为; • 第 2 个活动是新知识的建立过程 ,由分析者通过在新旧知识结构之间建立语义链接发起 ,例如在可视 化界面中 ,分析者可以通过标注等交互操作显式的建立链接 ,计算机对分析者新建的知识链接进行更 新,并通过语法语义分析更新知识库; • 第 3 个活动是假设条件的生成与分析验证 ,分析者和计算机均可以作为假设条件的产生者 ,然后根据 假设分析所得的证据列表,由计算机自动生成假设与证据矩阵,分析者据此做出结论; • 第 4 个活动描述了计算机辅助知识发现的自动化处理,例如对分析者各种交互输入的存储和响应、根 据分析者的需求执行模式识别等自动分析算法 ,将相关的或具有潜在价值的信息显示出来 ,分析者继 而对显示的内容进行选择或者摒弃. 上述各个认知活动均与信息 /知识发现息息相关 ,该模型描述了人机交互分析过程中的主要认知活动 ,并且 给出了分析者和计算机在认知活动中各自的任务范畴. 2.1.3 分布式认知 分布式认知理论将认知的领域从个体内部扩展到个体与环境交互时所涉及的时间和空间元素 [28],强调环 境中的外部表征对于认知活动的重要性 ,而不仅仅局限于传统所关注的个体内部表征 .当环境中存在符合用户 心理映像的外部表征时 ,例如某种直观的可视化结构 ,那么用户可以直接从中提取信息和知识 ,不需要经过推理 等牵扯内部表征的思维过程 .因此,在交互中主动建立有效的外部表征 ,能够大大提高认知的效率 .信息可视化 也是将信息和知识进行外部化的一种手段 .Liu 等人指出,分布式认知有望为信息可视化提供新的理论框架 [29]. 同时,分布式认知理论对分析过程中的实用型 (pragmatic)行为和认识型 (epistemic)行为[30]进行区分 :实用型行为 是指明确的、有意识的、目标导向的行为 ;而认识型行为指的是信息的外部表征与人的内部心理模型 (mental models)的协调与适应过程 [29].这一区别对可视分析中人机交互过程中多层次的任务模型构建具有重要的指导 意义,例如,可视分析中用于表达高层次的用户意图的任务具有认识型行为的特征 ,而各种具体的分析任务如过 滤和聚类等,则具有实用型行为的特征. 2.2 信息可视化理论模型 如图 3 是经典的信息可视化参考模型.Card 认为,信息可视化是从原始数据到可视化形式再到人的感知认 知系统的可调节的一系列转换过程[9]: • 数据变换将原始数据转换为数据表形式; • 可视化映射将数据表映射为可视化结构,由空间基、标记、以及标记的图形属性等可视化表征组成; • 视图变换则将可视化结构根据位置、比例、大小等参数设置显示在输出设备上. 用户根据任务需要,通过交互操作来控制上述 3 种变换或映射. 该模型中的关键变换是可视化映射 .从基于数学关系的数据表映射为能够被人视觉感知的图形属性结构 . 通常,数据本身并不能自动映射到几何物理空间 ,因此需要人为创造可视化表征或隐喻来代表数据的涵义 ,并且 根据建立的可视化结构特点设置交互行为来支持任务的完成 .可视化结构在空间基中通过标记以及图形属性 1914 Journal of Software 软件学报 Vol.25, No.9, September 2014 对数据进行编码 .可视化映射需满足两个基本条件 :一是真实的表示并保持了数据的原貌 ,并且只有数据表中的 数据才能映射至可视化结构 ;二是可视化映射形成的可视化表征或隐喻是易于被用户感知和理解的 ,同时又能 够充分地表达数据中的相似性、趋势性、差别性等特征 ,即具有丰富的表达能力.在信息可视化 20 多年来的发 展历程中,如何创造新型并且有效的可视化表征以达到一眼洞穿的效果 ,一直是该领域追求的目标和难点 ,在大 数据时代仍然是信息可视化领域的关键所在. 此外,信息可视化可以理解为编码 (encoding)和解码 (decoding)两个映射过程 [31]:编码是将数据映射为可视 化图形的视觉元素如形状、位置、颜色、文字、符号等 ;解码则是对视觉元素的解析 ,包括感知和认知两部分 . 一个好的可视化编码需同时具备两个特征 :效率和准确性 .效率指的是能够瞬间感知到大量信息 ,准确性则指的 是解码所获得的原始真实信息. Fig.3 Information visualization reference model[9] 图 3 信息可视化参考模型[9] 2.3 人机交互与用户界面理论模型 2.3.1 任务建模理论 仅靠一幅静态的可视化图像无法支持数据分析的动态过程 ,用户需要根据需求 ,与可视化界面中的图形元 素进行交互式分析 ,来实现分析目标 .支撑整个交互式分析过程的 ,是一系列特定任务的集合 ,例如,通过设置约 束条件来实现动态过滤 .对数据可视分析过程中各种任务建模 ,实质上定义了可视分析的目标集合 .因此,任务 建模理论是支持并辅助用户认知过程、指导可视分析系统的用户界面设计与实现的重要理论依据. 信息可视化与可视分析领域研究者对任务定义和分类理论做了大量研究[32−46]: • 第 1 类研究从高层的用户目标出发,以用户意图为关注点,例如 North 等人[32]提出的 Perceive,capture, encode,recover,and reuse,Pike 等人[33]提出的 Explore,analyze,browse,assimilate,triage,assess,understand, compare; • 第 2 类从较低层次的用户活动出发,以用户行为为关注点,例如 Shneiderman[34]提出的经典的 Overview, zoom,filter,details-on-demand,relate,history,extract 这 7 类任务,Keim[10]提出的动态投影、交互过滤、交 互缩放、交互变形、关联与刷新这 5 类任务,Amar 等人[35]提出的支持分析过程的 find extremum,sort, determine range, characterize distribution,find anomalies,cluster,correlate 等任务,此外还有 Wilkinson[36] 以及 Yi 等人[37]提出的针对可视化元素进行操作的任务集合; • 第 3 类从系统的层次出发,以软件操作为关注点,例如 Chuah 等人[38]提出了针对图形、集合、数据的 操作模型,Ward 等人[39]提出了交互基本操作、交互作用域、交互参数模型 ,Heer 等人[40]提出了基于类 的软件设计模式; • 第 4 类对多层次任务进行整合,建立了多层任务模型,例如 Brehmer 等人[41]从 Why,How,What 这 3 个方 面建立了多层任务模型 ,并对各种信息可视化与分析任务进行归类 ;此外,Ren 等人[42]提出了高层、底 层、系统层之间的多层映射模型,Schulz 等人[44]从 Why,How,What,Where,When,Who 这 6 个维度建立 了任务形式化描述模型. 综上可见:任务模型具有多层次性和多粒度性 ,并且与数据分析任务需求密切相关 .因此,面向大数据分析 领域应用的不同,应当建立具有多层次多粒度特征的领域相关的任务模型集合. 任磊 等:大数据可视分析综述 1915 2.3.2 交互模型 交互模型用于描述用户与系统为了协作完成任务目标,在互动过程中各自的角色与关系、承担的任务以及 相互之间的消息反馈与影响 .交互模型需要对分布在用户一侧与系统一侧的交互元素进行分类和定义 ,并且交 互模型建立在领域任务建模的基础上 ,根据不同的任务目标,对人、机各自的交互元素如何互动协作完成任务 的过程进行建模 .因此,交互模型描述了任务模型的具体化实现方式和方法 ,为大数据可视分析系统的交互设计 与实现提供重要的理论支持. Keim 等人[14]对可视分析领域的交互框架给出了高层的、概念化的描述,主要对人、机两侧承担的最佳任 务范畴进行了划分 .例如,机器一侧的任务范畴是统计分析、数据挖掘、数据管理、压缩和过滤、图形绘制与 渲染等 ,人一侧的任务范畴是感知、认知、信息组织与设计、推理、决策、行动等 .该交互框架并没有真正建 立面向任务的交互模型,只是对人机交互中的概念框架给出了宏观的描述.Pike 等人[33]根据任务的多层次特点, 从高层与低层映射的维度建立了信息可视化与分析的交互模型:在用户一侧定义了高层目标如探索、分析、浏 览、吸收、分类、评价、理解、比较等,同时定义了相应的低层次任务,如检索、过滤、排序、计算、求极值、 关联、识别范围、聚类、查看分布、寻找异常点等 ;在系统一侧则同样从高层和低层两个层次 ,定义了交互式 可视化界面的表征元素和交互元素 .高层的元素定义主要偏重表征和交互的内容 ,而低层的元素定义重在表征 和交互的具体技术 .该交互模型对人、机在可视分析中各自的交互元素给出了较为细化的分类和定义 ,但仍然 没有对面向任务的交互模型给出具体而细化的定义 .交互模型的设计通常与任务模型密切相关 ,因此,在建模过 程中需与不同层次、粒度、及领域相关的任务建立关联. 2.3.3 用户界面模型 用户界面是用户与机器系统之间交互的接口系统 ,目前大多指的是依托于一定的硬件显示设备的软件系 统以及配套的交互技术 .用户界面模型通常定义了界面中的各种组成元素以及对于交互事件的响应方式 .用户 界面可看作任务模型与交互模型的最终实现.因此,对用户界面建立模型,是指导系统设计与实现的前提与基 础.可视分析本质上是一种支持数据分析的交互式可视化用户界面 ,这种界面组成元素主要包括各种可视化表 征,例如用于表征网络可视化的节点和边 ;同时还包括用于支持分析过程的元素 ,例如用于记录假设和证据推理 过程的图形表征;此外还包括用于操纵可视化表征变换的图形控件,例如动态过滤条. Puerta[47]定义了一个完备的用户界面模型,主要从 5 个方面抽象了用户界面的组成元素:用户(user)、任务 (task)、领域 (domain)、表征 (presentation)、对话 (dialog);同时,将用户界面基本组成元素划分为抽象和具体两个 范畴.在此基础上,还定义了以上 5 种界面元素的映射关系,将用户界面模型表达为一个基于映射的数学模型.任 磊等人 [48,49]建立了支持可视分析的用户界面模型 ,定义了交互式信息可视化界面的概念性元素模型——用户 模型、信息模型、任务模型 ,以及实体性元素模型——可视化表征模型、对话模型 .同时,还定义了概念性元素 模型内部、实体性元素模型内部以及概念性元素与实体性元素之间的一组映射关系模型 .该用户模型可以作为 可视分析应用系统的设计模板 ,结合模型驱动的方法 ,能够自动生成交互式信息可视化系统 .杜一等人[50]进一步 在用户界面中引入基于本体的语义模型 ,建立了智能化的可视分析用户界面模型 ,用于支持具有语义关联的信 息多面体分析 .用户界面模型是从系统的角度出发 ,对最终用户面对的可视分析系统的界面形态及功能进行描 述,通常为领域应用的构建提供重要的可参照范型. 3 面向大数据主流应用的信息可视化技术 大数据可视化技术涉及传统的科学可视化和信息可视化 ,从大数据分析将掘取信息和洞悉知识作为目标 的角度出发,信息可视化技术将在大数据可视化中扮演更为重要的角色.Shneiderman 根据信息的特征把信息可 视化技术分为一维信息(1-dimensional)、二维信息(2-dimensional)、三维信息(3-dimensional)、多维信息(multi- dimensional)、层次信息(tree)、网络信息(network)、时序信息(temporal)可视化[9].20 年来,研究者围绕着上述信 息类型提出众多的信息可视化新方法和新技术[8],并获得了广泛的应用. 随着大数据的兴起与发展,互联网、社交网络、地理信息系统、企业商业智能、社会公共服务等主流应用 1916 Journal of Software 软件学报 Vol.25, No.9, September 2014 领域逐渐催生了几类特征鲜明的信息类型,主要包括文本、网络或图、时空、及多维数据等.这些与大数据密 切相关的信息类型与 Shneiderman 的分类交叉融合,将成为大数据可视化的主要研究领域. 3.1 文本可视化 文本信息是大数据时代非结构化数据类型的典型代表,是互联网中最主要的信息类型,也是物联网各种传 感器采集后生成的主要信息类型,人们日常工作和生活中接触最多的电子文档也是以文本形式存在.文本可视 化的意义在于,能够将文本中蕴含的语义特征(例如词频与重要度、逻辑结构、主题聚类、动态演化规律等)直 观地展示出来. 如图 4 所示,典型的文本可视化技术是标签云(word clouds 或 tag clouds)[51−56],将关键词根据词频或其他规 则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化.目前,大多用字 体大小代表该关键词的重要性,在互联网应用中,多用于快速识别网络媒体的主题热度.当关键词数量规模不断 增大时,若不设置阈值,将出现布局密集和重叠覆盖问题,此时需提供交互接口允许用户对关键词进行操作,例 如 ManiWordle[53]. Fig.4 Wordle and ManiWordle[52,53] 图 4 标签云举例[52,53] 文本中通常蕴含着逻辑层次结构和一定的叙述模式,为了对结构语义进行可视化,研究者提出了文本的语 义结构可视化技术.如图 5 所示是两种可视化方法:DAViewer[57]将文本的叙述结构语义以树的形式进行可视化, 同时展现了相似度统计、修辞结构、以及相应的文本内容;DocuBurst[58]以放射状层次圆环的形式展示文本结 构.基于主题的文本聚类是文本数据挖掘的重要研究内容,为了可视化展示文本聚类效果,通常将一维的文本信 息投射到二维空间中,以便于对聚类中的关系予以展示.例如,Hipp[59]提供了一种基于层次化点排布的投影方 法,可广泛用于文本聚类可视化.上述文本语义结构可视化方法仍建立在语义挖掘基础上,与各种挖掘算法绑定 在一起. Fig.5 DAViewer and DocuBurst[57,58] 图 5 文本语义结构树[57,58] 文本的形成与变化过程与时间属性密切相关,因此,如何将动态变化的文本中时间相关的模式与规律进行 可视化展示,是文本可视化的重要内容.引入时间轴是一类主要方法,如图 6 所示,ThemeRiver[60]用河流作为隐 喻,河流从左至右的流淌代表时间序列,将文本中的主题按照不同的颜色的色带表示,主题的频度以色带的宽窄 任磊 等:大数据可视分析综述 1917 表示.基于河流隐喻,研究者又提出了 TextFlow[61],进一步展示了主题的合并和分支关系以及演变.图 6 中还展示 了 EventRiver[62],其中将新闻进行了聚类,并以气泡的形式展示出来.Shreck 等人[63]对以上文本可视化技术进行 集成,建立了针对社会媒体进行可视分析的原型系统,如图 7 所示.此类社会媒体舆情分析是大数据典型应用之 一,在对文本本身语义特征进行展示的同时,通常需要结合文本的空间、时间属性形成综合的可视化界面. Fig.6 ThemeRiver and EventRiver[60,62] 图 6 动态文本时序信息可视化[60,62] Fig.7 Visual analytics system for social media[63] 图 7 社会媒体可视分析原型系统[63] 1918 Journal of Software 软件学报 Vol.25, No.9, September 2014 3.2 网络(图)可视化 网络关联关系是大数据中最常见的关系 ,例如互联网与社交网络 .层次结构数据也属于网络信息的一种特 殊情况.基于网络节点和连接的拓扑关系 ,直观地展示网络中潜在的模式关系 ,例如节点或边聚集性 ,是网络可 视化的主要内容之一 .对于具有海量节点和边的大规模网络 ,如何在有限的屏幕空间中进行可视化 ,将是大数据 时代面临的难点和重点.除了对静态的网络拓扑关系进行可视化,大数据相关的网络往往具有动态演化性,因 此,如何对动态网络的特征进行可视化,也是不可或缺的研究内容. 研究者提出了大量网络可视化或图可视化技术,Herman 等人[64]综述了图可视化的基本方法和技术,如图 8 所示.经典的基于节点和边的可视化 ,是图可视化的主要形式 .图中主要展示了具有层次特征的图可视化的典型 技术,例如 H 状树 H-Tree、圆锥树 Cone Tree、气球图 Balloon View、放射图 Radial Graph、三维放射图 3D Radial、 双曲树 Hyperbolic Tree 等.对于具有层次特征的图 ,空间填充法也是常采用的可视化方法 ,例如树图技术 Treemaps[65,66]及其改进技术,如图 9 所示是基于矩形填充、Voronoi 图填充[67]、嵌套圆填充的树可视化技术[68]. Gou 等人综合集成了上述多种图可视化技术,提出了 TreeNetViz[69],综合了放射图、基于空间填充法的树可视 化技术 .这些图可视化方法技术的特点是直观表达了图节点之间的关系 ,但算法难以支撑大规模 (如百万以上 ) 图的可视化 ,并且只有当图的规模在界面像素总数规模范围以内时效果才较好 (例如百万以内 ),因此面临大数 据中的图,需要对这些方法进行改进,例如计算并行化、图聚簇简化可视化、多尺度交互等. Fig.8 Graph and tree visualization by node-link diagram[64] 图 8 基于节点连接的图和树可视化方法[64] Fig.9 Tree visualization by space-filling diagram[65,67,68] 图 9 基于空间填充的树可视化[65,67,68] 大规模网络中 ,随着海量节点和边的数目不断增多 ,例如规模达到百万以上时 ,可视化界面中会出现节点和 边大量聚集、重叠和覆盖问题 ,使得分析者难以辨识可视化效果.图简化(graph simplification)方法是处理此类大 任磊 等:大数据可视分析综述 1919 规模图可视化的主要手段: • 一类简化是对边进行聚集处理,例如基于边捆绑(edge bundling)的方法[70−73],使得复杂网络可视化效果 更为清晰,图 10 展示了 3 种基于边捆绑的大规模密集图可视化技术[70−72].此外,Ersoy 等人还提出了基 于骨架的图可视化技术[74],主要方法是根据边的分布规律计算出骨架,然后再基于骨架对边进行捆绑; • 另一类简化是通过层次聚类与多尺度交互 ,将大规模图转化为层次化树结构 ,并通过多尺度交互来对 不同层次的图进行可视化.例如,图 11 所示的 ASK-Graphview[75]能够对具有 1 600 万条边的图进行分 层可视化. 这些方法技术将为大数据时代大规模图可视化提供有力的支持 ,同时我们应该看到 ,交互技术的引入 ,也将 是解决大规模图可视化不可或缺的手段(关于此内容在第 4 节讨论). Fig.10 Graph visualization by edge bundling[70−72] 图 10 基于边捆绑的大规模密集图可视化[70−72] Fig.11 ASK-Graphview: Large graph visualization tool using hierarchical clutering and multiscale interaction[75] 图 11 基于层次聚类与多尺度交互的大规模图可视化工具 ASK-Graphview[75] 1920 Journal of Software 软件学报 Vol.25, No.9, September 2014 动态网络可视化的关键是如何将时间属性与图进行融合 ,基本的方法是引入时间轴 .例如, StoryFlow[76]是 一个对复杂故事中角色网络的发展进行可视化的工具,该工具能够将《指环王》中各角色之间的复杂关系随时 间的变化,以基于时间线的节点聚类的形式展示出来 .然而,这些例子涉及的网络规模较小 .总体而言,目前针对 动态网络演化的可视化方法研究仍较少 ,而大数据背景下对各类大规模复杂网络如社会网络和互联网等的演 化规律的探究,将推动复杂网络的研究方法与可视化领域进一步深度融合. 3.3 时空数据可视化 时空数据是指带有地理位置与时间标签的数据 .传感器与移动终端的迅速普及 ,使得时空数据成为大数据 时代典型的数据类型 [77,78].时空数据可视化与地理制图学相结合 ,重点对时间与空间维度以及与之相关的信息 对象属性建立可视化表征,对与时间和空间密切相关的模式及规律进行展示.大数据环境下时空数据的高维 性、实时性等特点,也是时空数据可视化的重点. 为了反映信息对象随时间进展与空间位置所发生的行为变化 ,通常通过信息对象的属性可视化来展现 .流 式地图 Flow map[79]是一种典型的方法,将时间事件流与地图进行融合,图 12 显示了使用 Flow map 分别对 1864 年法国红酒的出口情况以及拿破仑进攻俄罗斯的情况可视化的例子.当数据规模不断增大时,传统 Flow map 面 临大量的图元交叉、覆盖等问题 ,这也是大数据环境下时空数据可视化的主要问题之一 .解决此问题可借鉴并 融合大规模图可视化中的边捆绑方法,如图 13 所示是对时间事件流做了边捆绑处理的 Flow map[80,81].此外,基 于密度计算对时间事件流进行融合处理也能有效解决此问题,如图 14 是结合了密度图技术[82]的 Flow map. (a) 法国 1864 年红酒出口 (b) 拿破仑 1812 年进攻俄罗斯 Fig.12 Flow map[79] 图 12 流式地图[79] Fig.13 Edge bundling used in flow map[80,81] 图 13 结合了边捆绑技术的流式地图[80,81] 任磊 等:大数据可视分析综述 1921 Fig.14 Density techniques used in flow map[82] 图 14 结合了密度图技术的流式地图[82] 为了突破二维平面的局限性,另一类主要方法称为时空立方体(space-time cube)[83],以三维方式对时间、空 间及事件直观展现出来.图 15 是采用时空立方体对拿破仑进攻俄罗斯情况进行可视化的例子,能够直观地对该 过程中地理位置变化、时间变化、部队人员变化以及特殊事件进行立体展现 .时空立方体同样面临着大规模数 据造成的密集杂乱问题 .一类解决方法是结合散点图和密度图 [84,85]对时空立方体进行优化 ,如图 16 所示;另一 类方式对二维和三维进行融合 ,Tominski[86]引入了堆积图(stack graph),在时空立方体中拓展了多维属性显示空 间,如图 17 所示.上述各类时空立方体适合对城市交通 GPS 数据、飓风数据等大规模时空数据进行展现.当时 空信息对象属性的维度较多时,三维也面临着展现能力的局限性,因此,多维数据可视化(第 3.4 节)方法常与时空 数据可视化进行融合.如图 18 所示是将多维平行坐标轴与传统地图制图方法结合的例子[87]. Fig.15 Space time cube[83] 图 15 时空立方体[83] Fig.16 Scatter plot and density techniques used inSpace time cube[84,85] 图 16 融合散点图与密度图技术的时空立方体[84,85] 1922 Journal of Software 软件学报 Vol.25, No.9, September 2014 Fig.17 Stacking techniques used inSpace time cube[86] 图 17 融合堆积图技术的时空立方体[86] Fig.18 Parallel coordinates used in spatial-temporal visualization[86,87] 图 18 多维平行坐标在时空数据可视化中的使用[86,87] 3.4 多维数据可视化 多维数据指的是具有多个维度属性的数据变量 ,广泛存在于基于传统关系数据库以及数据仓库的应用中 , 例如企业信息系统以及商业智能系统 .多维数据分析的目标是探索多维数据项的分布规律和模式 ,并揭示不同 维度属性之间的隐含关系.Keim 等人[88]归纳了多维可视化的基本方法,包括基于几何图形、基于图标、基于像 素、基于层次结构、基于图结构以及混合方法 .其中,基于几何图形的多维可视化方法是近年来主要的研究方 向.大数据背景下,除了数据项规模扩张带来的挑战,高维所引起的问题也是研究的重点. 散点图(scatter plot)[89]是最为常用的多维可视化方法 .二维散点图将多个维度中的两个维度属性值集合映 射至两条轴,在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值 ,例如,可通过不同形 状、颜色、尺寸等来代表连续或离散的属性值 ,如图 19 左图所示.二维散点图能够展示的维度十分有限,研究者 将其扩展到三维空间[90],通过可旋转的 Scatter plot 方块(dice)扩展了可映射维度的数目 ,如图 19 右图所示.散点 图适合对有限数目的较为重要的维度进行可视化,通常不适于需要对所有维度同时进行展示的情况. 投影(projection)[91−94]是能够同时展示多维的可视化方法之一.如图 20 所示,VaR[91]将各维度属性列集合通 过投影函数映射到一个方块形图形标记中 ,并根据维度之间的关联度对各个小方块进行布局 .基于投影的多维 可视化方法一方面反映了维度属性值的分布规律,同时也直观展示了多维度之间的语义关系. 平行坐标(parallel coordinates)[95]是研究和应用最为广泛的一种多维可视化技术,如图 21 所示,将维度与坐 标轴建立映射 ,在多个平行轴之间以直线或曲线映射表示多维信息 .近年来,研究者将平行坐标与散点图等其他 可视化技术进行集成,提出了平行坐标散点图 PCP(parallel coordinate plots)[96].例如图 22 所示,将散点图和柱状 图集成在平行坐标中 ,支持分析者从多个角度同时使用多种可视化技术进行分析 [96].再如 Geng 等人[97]建立了 任磊 等:大数据可视分析综述 1923 一种具有角度的柱状图平行坐标 ,支持用户根据密度和角度进行多维分析 .大数据环境下 ,平行坐标面临的主要 问题之一是大规模数据项造成的线条密集与重叠覆盖问题 ,根据线条聚集特征对平行坐标图进行简化 ,形成聚 簇可视化效果[132,133],如图 23 所示,将为这一问题提供有效的解决方法. Fig.19 2D and 3D scatterplot[89,90] 图 19 二维和三维散点图[89,90] Fig.20 VaR based on projection[91] Fig.21 Parallel coordinates[95] 图 20 基于投影的多维可视化[91] 图 21 平行坐标多维可视化技术[95] Fig.22 FLINAPlots: A tool of parallel coordinates integrating scatterplots and histograms[96] 图 22 集成了散点图和柱状图的平行坐标工具 FLINAPlots[96] 1924 Journal of Software 软件学报 Vol.25, No.9, September 2014 Fig.23 Aggregation for parallel coordinates[132,133] 图 23 平行坐标图聚簇可视化[132,133] 4 支持可视分析的人机交互技术 综合 Card、Shneiderman 和 Keim 等研究者的综述,信息可视化中的人机交互技术主要可概括为 5 类:动态 过滤技术(dynamic queries)与动态过滤用户界面、整体+详细技术(overview+detail)与 Overview+Detail 用户界 面、平移 +缩放技术(panning+zooming)与可缩放用户界面 (ZUI)、焦点 +上下文技术 (focus+context)与 Focus+ Context 用户界面、多视图关联协调技术(multiple coordinated views)与关联多视图用户界面[8].根据第 2.3 节对 可视分析相关的任务建模的讨论 ,大数据可视分析中涉及的人机交互技术在融合与发展上述几大类交互基础 之上,还需要重点研究对可视分析推理过程提供界面支持的人机交互技术以及更符合分析过程认知理论的自 然、高效的人机交互技术[98]. 4.1 支持可视分析过程的界面隐喻与交互组件 在用于大数据可视分析的用户界面中 ,仅有数据的可视化表征还远远不能支持问题分析推理过程各环节 的任务需求 ,界面还需要提供有效的界面隐喻来表示分析的流程 ,同时提供相应的交互组件供分析者使用和管 理可视分析的过程 [99].根据支持分析过程的认知理论 ,界面隐喻和交互组件应包含支持分析推理过程的各个要 素,例如分析者的分析思路、信息觅食的路径、信息线索、观察到的事实、分析记录和批注、假设、证据集合、 推论和结论、分析收获(信息和知识等)、行为历史跟踪等. Shrinivasan 等人对可视化信息探索过程中的分析推理过程进行建模,并建立了基于 3 个视图(数据视图、 知识视图、导航视图 )的可视分析界面模型与原型系统 Aruvi[99].如图 24 所示,界面中上部显示了数据的散点图 可视化效果,界面右部是对分析者在推理过程中所获知识的记录 ,界面下部是分析推理过程的历史追踪管理 ,采 用基于时间线和关键节点的界面隐喻.分析者利用 Aruvi 可以追踪分析过程中的关键节点,保持思维的连续性. Fig.24 Aruvi: A user interface supporting reasoning process in visual analysis [99] 图 24 支持可视分析推理过程的用户界面 Aruvi[99] 任磊 等:大数据可视分析综述 1925 Wright 等人[100]根据 put-this-there 认知理论,建立了对分析推理流程以及假设和证据进行组织管理的用户 界面 Sanbox,采用类似思维导图的可视化隐喻 ,使得分析者能够有效地管理分析推理的思维过程 .Wu 等人[101] 将分析推理过程中的不确定性因素进行了可视化展示 ,使用不确定性流图 (uncertainty flow)对不确定性因素进 行分析和管理.Heer 等人[102]指出:在多人协作的可视分析中,为分布式的网络分析者提供分析推理流程以及上 下文管理的界面尤为重要. 为了更为直观地概览分析推理过程中的关键节点,并能够快速返回分析历史中的某个场景,Walker等人[103] 提出了成为书签缩略图的界面隐喻 ,如图 25 所示,每个书签缩略图中展示了当时分析场景中的信息可视化状 态、相关的交互行为、分析摘要等 ,可视分析推理的过程由一系列连续的书签缩略图排列组成 ,有助于分析者 一眼即回忆起当时的分析场景 .TIARA[104]是用于针对文本的可视分析工具 ,其中使用可交互的摘要 (summary) 对不同的文本主题进行标注,分析者可以与摘要进行交互,支持主题的排序和对比等. Fig.25 Graphical summaries of bookmarks[103] 图 25 基于书签缩略图的可视分析界面[103] 4.2 多尺度、多焦点、多侧面交互技术 (1) 多尺度界面与语义缩放(semantic zooming)技术 当数据的规模超过了屏幕像素的总和 ,往往无法一次将所有的数据显示出来 .多尺度界面 (multi-scale interfaces)[105]是解决这一问题的有效方法 ,它使用不同级别的空间尺度 (scale)组织信息 ,将尺度(scale)的层次与 信息呈现的内容联系起来 ,将平移与缩放作为主要交互技术 .各种信息可视化对象的外观随着尺度的大小进行 语义缩放.语义缩放目前已经广泛用于二维地图可视化系统中 ,对于大数据可视分析而言 ,语义缩放将成为从高 层概要性信息到低层细节性信息、分层次可视化的重要支撑技术 .图 26 中的 ZAME 系统显示了通过语义缩放 对百万以上规模的图进行可视化的效果,它采用矩阵网格形式对不同尺度的图节点进行可视化. Fig.26 Large graph visualization application with multiscale interface ZAME[106] 图 26 多尺度界面 ZAME 在大规模图可视化中的应用[106] 1926 Journal of Software 软件学报 Vol.25, No.9, September 2014 (2) 焦点+上下文(focus+context,简称 F+C)技术 Focus+Context 技术(F+C)的起源是广义鱼眼视图 (generalized fisheye views)的提出 ,它将用户关注的焦点 对象(focus)与整体上下文环境(context)同时显示在一个视图内,通过关注度函数(degree of interest function,简称 DOI Function)对视图中的对象进行选择性变形 ,突出焦点对象 ,而将周围环境上下文中的对象逐渐缩小 [107].这 一技术的认知心理学基础是 :人在探索局部信息的同时 ,往往需要保持整体信息空间的可见性 [9].F+C 另一个认 知心理学基础是:若信息空间被划分为两个显示区域(如 overview+detail 模式),人在探索信息时需要不断切换 注意力和工作记忆,导致认知行为的低效[108,109]. 研究者针对 F+C 技术开展了大量研究[110−122],如 Spence 等人提出的双焦点变形技术(bifocal display)[110]、 Furnas 提出的鱼眼视图及其各种扩展技术[107] 、 Lamping 等人提出的双曲几何变换技术(hyperbolic geometry)[111]、Yee 等人提出的放射图(radial graph)[112]、Heer 等人提出的关注度树(DOI tree)[113]、Ren 等人提 出的动态扇形图 DOI-Wave[121]、Piertiga 等人提出的 Sigma 透镜[122]等.其中,鱼眼视图的研究最为广泛,如文本 鱼眼菜单 Fisheye Menus[114]、搜索引擎结果鱼眼列表的 WaveLens[115]、PDA 手持设备鱼眼日历 DateLens[116]、 图像鱼眼[117,118]等.鱼眼视图也应用于密集网络节点的可视化,如密集树图多焦点 Ballon 技术[119]、大规模树结 构的嵌套圆鱼眼视图[120]等.图 27 显示了上述部分例子.大数据环境下,F+C 技术因其能在突出关注的焦点的同 时保持上下文整体视图的连贯性 ,将为密集型可视化界面和强调上下文关联的搜索分析行为提供有力的支持 . 同时,将焦点与上下文之间单纯的距离概念拓展到语义层面 ,结合挖掘与学习算法计算语义距离来动态获得与 焦点语义相关的上下文,并做出智能自适应性可视化反馈,也将是 F+C 技术的研究重点. Fig.27 Focus+Context[113,118−120] 图 27 焦点+上下文技术[113,118−120] (3) 多侧面关联技术 数据对象往往具有多个信息侧面 (facet),称为信息多面体.为了分析信息多面体多侧面之间具有语义关联 关系,研究者提出了多侧面关联技术,基本思想是:建立针对多个信息侧面的视图 ,在交互过程中对多侧面视图 任磊 等:大数据可视分析综述 1927 中的可视化对象进行动态关联,以探索内在的关系.Zhao 等人[123]研发了可视分析工具 PivotSlice,针对信息多面 体中多侧面之间的关系进行分析.如图 28 所示,PivotSlice 的可视分析界面,界面上部是分析过程的历史追踪,中 部展示了多个侧面的视图 ,用户与任意一个视图中的节点交互时 ,可动态链接到其他视图中具有语义关联的节 点集合. Fig.28 PivotSlice supporting visual analysis of multi-facet information [123,124] 图 28 支持信息多面体可视分析的 PivotSlice 和 PivotPaths 界面[123,124] Dork 等人[124]提出了另一种对信息多面体进行分析的技术 PivotPaths,如图 29 所示,界面从上到下分为 3 部 分:人物、资源、概念,3 个层面之间建立了关联,在交互分析时能够清晰地观察到内在的关系. Fig.29 PivotSlice supporting visual analysis of multi-facet information[123,124] 图 29 支持信息多面体可视分析的 PivotSlice 和 PivotPaths 界面[123,124] 任磊和杜一等人 [49,50]提出了基于领域本体的多侧面关联模型 ,并实现了一个支持信息多面体可视分析的 系统 DaisyVA,如图 30 所示.多侧面关联技术强调从多个角度来分析问题,并且重在建立多个分析角度之间的内 在关联关系,这也为突破单一视角来分析大数据提供了相应的可视分析技术的支持. 1928 Journal of Software 软件学报 Vol.25, No.9, September 2014 Fig.30 DaisyVA supporting visual analysis of multi-facet information [50] 图 30 支持信息多面体可视分析的 DaisyVA 界面[50] 4.3 面向Post-WIMP的自然交互技术 根据分析过程的认知理论 ,分析者在分析推理过程中需要保证思维的连贯性 ,而连续的思维不应被交互操 作过多的打断 .因此,可视分析所采用的交互技术应是贴近用户认知心理的、支持直接操纵的、自然的交互技 术[11].自然交互能够保证分析者主要关注点在分析任务上 ,而不需过多关注实现任务的具体操作方式和流程 .传 统的 WIMP 交互技术主要依赖鼠标和键盘作为主要交互方式 ,造成用户在执行任务时很大一部分时间花在了 如何操作上,因此并不是支持可视分析的最佳交互技术.Post-WIMP 交互技术极大地提升了交互方式的自然性, 例如多通道交互、触摸式交互、笔交互等[125],尤其适合可视分析的应用需求. 基于触摸、手势以及笔交互的界面目前已经比较普遍 ,Walny 等人[126]实现了基于笔和触摸的交互式白板 并应用于可视分析 ,并且对两种交互技术各自的特点进行了比较和分析 .如图 31 所示,分析者可以基于触摸交 互方式、利用手势来操纵界面中的可视化对象 ,同时可以用笔对分析推理过程的思维进行记录 .实验结果表明 , 基于笔和触摸的交互技术能够使得分析推理过程更为流畅.Tominski 等人[127]受人们日常行为习惯的启发,提出 了一种基于折叠动作的自然交互技术 ,用于可视分析中数据的对比 .如图 32 所示,分析者可以像翻开并折叠一 页纸一样与界面中的可视化对象交互. Fig.31 Pen plus touch interaction[126] Fig.32 Folding interaction[127] 图 31 笔和触摸交互[126] 图 32 折叠交互[127] 大数据分析问题的复杂性和跨领域特点 ,导致问题的分析需要具有多元知识背景的分析者进行协作 .为了 更高效自然地支持协作可视分析 ,Isenberg 等人[128]提出了基于数字桌面多触点交互的协作可视分析技术 .如图 33 所示,多用户可以在共享的数字桌面上用触摸和手势,对可视化对象进行操纵和分析.Block 等人[129]提出了一 任磊 等:大数据可视分析综述 1929 种称为DeepTree的生命进化可视化系统,也采用了多点触摸和手势的交互技术.Lee等人[130]提出了SketchStory, 将笔交互技术不仅用于分析推理过程 ,而且基于手绘草图来创建可视化对象 ,如图 34 所示,界面能够对分析者 绘制的草图予以理解,并生成规范化的可视化图像. Fig.33 Multi-Touch interaction on tabletop[128] Fig.34 Visual analysis with sketching [130] 图 33 数字桌面多触点交互协作可视分析[128] 图 34 基于手绘草图的可视分析[130] 5 问题与挑战 (1) 多源、异构、非完整、非一致、非准确数据的集成与接口 大数据可视化与可视分析所依赖的基础是数据 ,而大数据时代数据的来源众多 ,且多来自于异构环境 .即使 获得数据源 ,得到的数据的完整性、一致性、准确性都难以保证 ,数据质量的不确定问题将直接影响可视分析 的科学性和准确性 .大数据可视化的前提是建立在集成的数据接口 ,并且与可视分析系统形成松耦合的接口关 系,以供各种可视化算法方便的调用 ,使得可视分析系统的研发者和使用者不需要关系数据接口背后的复杂机 理.可见,大数据的集成和接口问题将是大数据可视分析面临的第一个挑战. (2) 匹配心理映像的可视化表征设计与评估 科学/信息可视化领域经过几十年的发展 ,积累了大量各具特色的可视化表征 ,这将为大数据可视化提供有 力的支持.然而,绝大多数在当时看来创新的可视化技术 ,只能被少部分研究人员所接收 ,却难以获得广泛的认 可和应用.原因在于 :大量的可视化表征的创造仅仅在于追求技术角度的创新 ,而忽视了可视化尤其是信息可视 化领域的本源——符合人的认知规律和心理映像 .针对大数据所固有的特点 ,未来仍将涌现更多的可视化表征 . 然而目前仍缺乏公认的科学评价机制 ,对可视化表征设计的合理性、自然性、直观性及有效性等进行评估 .未 来随着认知科学的发展 ,如何创造匹配心理映像的大数据可视化表征 ,真正能够让分析者一眼看穿大数据 ,将是 面临的最大挑战. (3) 最大限度发挥人、机各自优势的人机交互与最优化协作求解 如前所述 ,人和机器各自拥有无可替代的优势 ,人具有机器所不具备的视觉系统以及强大的感知认知能力 , 并且具有非逻辑理性的直觉判断和分析解读能力,但是人的工作记忆却只有 7 个左右的信息块;而计算机拥有 巨大的存储系统和强大的数据处理能力 ,能够根据数据挖掘模型在短时间内完成大规模的计算量 .因此,大数据 可视分析的过程就是充分利用各自优势并且紧密协作的过程 .然而,目前大数据可视分析领域仍未能十分清晰 和细致地界定在问题分析过程中 ,人机交互的多层次多粒度任务应该如何最优化地分布在人、机两侧 .而且,目 前正处于从 WIMP 走向 Post-WIMP 的过渡期,各种交互技术如何最优的匹配具体的分析任务,仍有待深入的研 究与验证. (4) 以用户为中心的系统设计与开发方法论、框架以及工具 随着互联网、物联网、云计算的迅猛发展 ,数据随处可见、触手可及 .政府的政策制定、经济与社会的发 展、企业的生存与竞争以及每个人日常生活的衣食住行无不与大数据有关 .因此,未来任何领域的普通个人均 存在着大数据分析的需求.“人人都懂大数据、人人都能可视化”将是大数据领域的发展目标之一.可视化领域大 量极具潜力的创新技术 ,之所以未能从学术界推广至产业界 ,一个重要的原因是缺乏简单易行的、以用户为中 心的系统设计与开发方法论、框架以及工具 .具体应用领域的用户往往不懂看似高深的可视化和交互技术 ,他 1930 Journal of Software 软件学报 Vol.25, No.9, September 2014 们通常只提出问题需求或提供大数据 .如何能使得最终用户快捷方便地、自助式地实现大数据可视分析系统 , 满足自己的个性化需求,将是大数据可视分析走向大范围应用并充分发挥价值的关键. (5) 可扩展性问题 大数据的数据规模目前已经呈现爆炸式增长 ,数据量的无限积累与数据的持续演化 ,导致普通计算机的处 理能力难以达到理想的范围 .同时,主流显示设备的像素数也难以跟上大数据增长的脚步 ,造成像素的总和还不 如要可视化的数据多[134].而且,大量在较小的数据规模下可行的可视化技术在面临极端大规模数据时将无能为 力.然而,大数据可视分析系统应具有很好的可扩展性 ,即感知扩展性和交互扩展性只取决于可视化的精度而不 依赖数据规模的大小 [131],以支持实时的可视化与交互操作 .因此,未来如何对于超高维数据的降维以降低数据 规模、如何结合大规模并行处理方法与超级计算机、如何将目前有价值的可视化算法和人机交互技术提升和 拓展到大数据领域,将是未来最严峻的挑战. 6 结束语 可视分析是大数据分析的重要方法 ,能够有效地弥补计算机自动化分析方法的劣势与不足 .大数据可视分 析将人面对可视化信息时强大的感知认知能力与计算机的分析计算能力优势进行有机融合 ,在数据挖掘等方 法技术的基础上 ,综合利用认知理论、科学 /信息可视化以及人机交互技术 ,辅助人们更为直观和高效地洞悉大 数据背后的信息、知识与智慧 .可视分析领域建立在可视化技术基础上 ,主要强调认知、可视化、人机交互的 交叉与融合.本文正是从这一角度出发 ,分析支持大数据可视分析的基础理论 ,包括支持分析过程的认知理论、 信息可视化理论以及人机交互与用户界面理论 .在此基础上 ,讨论了面向大数据主流应用的信息可视化技术 ,主 要包括文本可视化、网络 (图)可视化、时空数据可视化、多维数据可视化技术 ;同时探讨了支持可视分析的人 机交互技术 ,主要包括支持可视分析过程的界面隐喻与交互组件、多尺度 /多焦点/多侧面交互技术、面向 Post-WIMP 的自然交互技术.最后,讨论了大数据可视分析领域面临的瓶颈问题和技术挑战. 当前,国内仍十分鲜见信息可视化与可视分析的研究成果,中国科学院软件研究所、北京大学、浙江大学、 天津大学、香港科技大学、燕山大学、微软亚洲研究院等单位相关学者 [141]的规模也十分有限 ,迫切需要更多 专家学者的关注与支持 .同时,也需要结合大数据应用领域深入开展实践 .本文下一步的工作是结合笔者团队在 云制造领域开展的研究与实践 [135−140],在超大型集团企业制造云和中小企业集群制造云积累的大数据基础上 , 开展制造业企业大数据可视化与可视分析的研究与应用. References: [1] Doctorow C. Big data: Welcome to the petacenter. Nature, 2008,455(7209):16−21. [doi: 10.1038/455016a] [2] Reichman OJ, Jones GA, Bony S, Easterling DR. Challenges and opportunities of open data in ecology. Science, 2011,331(6018): 703−705. [doi: 10.1126/science.1197962] [3] Labrinidis A, Jagadish HV. Challenges and opportunities with big data. PVLDB, 2012,5(12):2032−2033. [doi: 10.14778/2367502. 2367572] [4] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skills: New analysis practices for big data. PVLDB, 2009,2(2): 1481−1492. [doi: 10.14778/1687553.1687576] [5] Zikopoulos P, Eaton C. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill Osborne Media, 2011. 1−10. [6] Keim D, Qu H, Ma KL. Big-Data visualization. IEEE Computer Graphics and Applications, 2013,33(4):20−21. [doi: 10.1109/MCG. 2013.54] [7] Yuan XR. Big data visualization and visual analysis. 2013 (in Chinese). http://www.chinacloud.cn/upload/2013-12/13122814565 172.pdf [8] Ren L. Research on interaction techniques in information visualization [Ph.D. Thesis]. Beijing: The Chinese Academy of Sciences, 2009 (in Chinese with English abstract). [9] Card SK, Mackinlay JD, Shneiderman B. Readings in Information Visualization: Using Vision To Think. San Francisco: Morgan- Kaufmann Publishers, 1999. 1−712. 任磊 等:大数据可视分析综述 1931 [10] Keim D. Information visualization and visual data mining. IEEE Trans. on Visualization and Computer Graphics, 2002,8(1):1−8. [doi: 10.1109/2945.981847] [11] Keim D, Konlhammer J, Ellis G, Mansmann F. Mastering the Information Age: Solving Problems with Visual Analytics. Goslar: Eruographics Association, 2010. 1−168. [12] Wong PW, Johnson CR, Chen C, Ross RB. The top 10 challenges in extreme-scale visual analytics. IEEE Computer Graphics and Applications, 2012,32(4):63−67. [doi: 10.1109/MCG.2012.87] [13] Preece J, Rogers Y, Sharp H, Benyon D, Carey T. Human-Computer Interaction. Essex: Addison-Wesley Longman Ltd., 1994. 1−30. [14] Keim D, Andrienko G, Fekete J, Görg C, Kohlhammer J, Melancon G. Visual analytics: Definition, process, and challenges. In: Kerren A, ed. Proc. of the Information Visualization. LNCS 4950, Berlin: Springer-Verlag, 2008. 154−175. [doi: 10.1007/978-3- 540-70956-5_7] [15] Thomas JJ, Cook CA. Illuminating the Path: The Research and Development Agenda for Visual Analytics. Los Alamitos: IEEE Computer Society, 2005. 1−180. [16] Chen C. An information-theoretic view of visual analytics. IEEE Computer Graphics and Applications, 2008,(1):18−23. [doi: 10.1109/MCG.2008.2] [17] Chen M, Heike J. An information-theoretic framework for visualization. IEEE Trans. on Visualization and Computer Graphics, 2010,16(6):1206−1215. [doi: 10.1109/TVCG.2010.132] [18] Dervin B. Sense-Making theory and practice: An overview of user interests in knowledge seeking and use. Journal of Knowledge Management, 1998,2(2):36−46. [doi: 10.1108/13673279810249369] [19] Dervin B. On studying information seeking methodologically: The implications of connecting metatheory to method. Information Processing & Management, 1999,35(6):727−750. [doi: 10.1016/S0306-4573(99)00023-0] [20] Piaget J. Intellectual evolution from adolescence to adulthood. Human Development, 1972,15(1):1−12. [doi: 10.1159/000271225] [21] Pirolli P, Card SK. The sensemaking process and leverage points for analyst technology as identified though cognitive task analysis. In: Maybury M, ed. Proc. of the Int’l Conf. on Intelligence Analysis. MacLean: MITRE, 2005. 1−6. [22] Pirolli P, Card SK. Information foraging in information access environments. In: Katz IR, ed. Proc. of the CHI. New York:: ACM Press, 1995. 51−58. [doi: 10.1145/223904.223911] [23] Pirolli P. Information Foraging Theory: Adaptive Interaction with Information. New York: Oxford University Press, 2007. 31−35. [24] Card SK, Pirolli P, Van Der WM. Information scent as a driver of Web behavior graphs: Results of a protocol analysis method for Web usability. In: Michel BL, Jacob R, eds. Proc. of the CHI. New York: ACM Press, 2001. 498−505. [doi: 10.1145/365024. 365331] [25] Chi EH, Pirolli P. Using information scent to model user information needs and actions and the Web. In: Michel BL, Jacob R, eds. Proc. of the CHI. New York: ACM Press, 2001. 490−497. [doi: 10.1145/365024.365325] [26] Sundar SS, Westerwick SK, Hastall MR. New cues: Information scent and cognitive heuristics. Journal of the American Society for Information Science and Technology, 2007,58(3):366−378. [doi: 10.1002/asi.20511] [27] Green TM, William R, Brian F. Visual analytics for complex concepts using a human cognition model. In: Grinsten G, ed. Proc. of the VAST. Columbus: IEEE Press, 2008. 91−98. [doi: 10.1109/VAST.2008.4677361] [28] Hollan J, Hutchins E, Kirsh D. Distributed cognition: toward a new foundation for human-computer interaction research. ACM Trans. on Computer-Human Interaction, 2000,7(2):174−196. [doi: 10.1145/353485.353487] [29] Liu Z, Nersessian N, Stasko J. Distributed cognition as a theoretical framework for information visualization. IEEE Trans. on Visualizaion and Computer Graphics, 2008,14(6):1173−1180. [doi: 10.1109/TVCG.2008.121] [30] Kirsh D, Maglio P. On distinguishing epistemic from pragmatic action. Cognitive Science, 1994,18(4):513−549. [doi: 10.1207 /s15516709cog1804_1] [31] Wunsche B. A survey, classification and analysis of perceptual concepts and their application for the effective visualisation of complex information. In: Chrucher N, Churcher C, eds. Proc. of the APVIS. Darlinghurst: Australian Computer Society, 2004. 17−24. [32] North C, Chang R, Endert A, Dou W, May R, Pike B, Fink G. Analytic provenance: Process+Interaction+Insight. In: Tan D, ed. Proc. of the CHI. New York: ACM Press, 2011. 33−36. [doi: 10.1145/1979742.1979570] [33] Pike WA, Stasko JT, Chang R, O’Connell TA. The science of interaction. Information Visualization, 2009,8(4):263−274. [doi: 10.1057/ivs.2009.22] [34] Shneiderman B. The eyes have it: A task by data type taxonomy for information visualizations. In: Gershon N, ed. Proc. of the INFOVIS. San Francisco: IEEE Press, 1996. 336−343. [doi: 10.1109/VL.1996.545307] 1932 Journal of Software 软件学报 Vol.25, No.9, September 2014 [35] Amar R, Eagan J, Stasko JT. Low-Level components of analytic activity in information visualization. In: Andrews K, ed. Proc. of the INFOVIS. Minneapolis: IEEE Press, 2005. 111−117. [doi: 10.1109/INFOVIS.2005.24] [36] Wilkinson L. The Grammar of Graphics. 2nd ed., New York: Springer-Verlag, 2005. 375−414. [37] Yi JS, Kang Y, Stasko JT, Jacko JA. Toward a deeper understanding of the role of interaction in information visualization. IEEE Trans. on Visualizaion and Computer Graphics, 2007,13(6):1224−1231. [doi: 10.1109/TVCG.2007.70515] [38] Eades P, Huang ML. Navigating clustered graphs using force-directed methods. Journal of Graph Algorithms and Applications, 2000,4(3):157−181. [doi: 10.7155/jgaa.00029] [39] Ward MO, Yang J. Interaction spaces in data and information visualization. Computer Graphics Forum, 2003,22(3):137−145. [doi: 10.2312/VisSym/VisSym04/137-146] [40] Heer J, Agrawala M. Software design patterns for information visualization. IEEE Trans. on Visualization and Computer Graphics, 2006,12(5):853−860. [doi: 10.1109/TVCG.2006.178] [41] Brehmer M, Munzner T. A multi-level typology of abstract visualization tasks. IEEE Trans. on Visualization and Computer Graphics, 2013,19(12):2376−2385. [doi: 10.1109/TVCG.2013.124] [42] Ren L, Cui J, Du Y, Dai GZ. Multilevel interaction model for hierarchical tasks in information visualization. In: Zhang J, ed. Proc. of the VINCI. Tianjin: ACM Press, 2013. 11−16. [doi: 10.1145/2493102.2493104] [43] Schulz H, Thomas N, Magnus H, Heidrun S. A design space of visualization tasks. IEEE Trans. on Visualization and Computer Graphics, 2013,19(12):2366−2375. [doi: 10.1109/TVCG.2013.120] [44] Lee B, Plaisant LB, Simsparr C, Fekete JD, Henry N. Task taxonomy for graph visualization. In: Celentano A, ed. Proc. of the AVI Workshop. New York: ACM Press, 2006. 1−5. [doi: 10.1145/1168149.1168168] [45] Liu Z, Stasko JT. Mental models, visual reasoning and interaction in information visualization: A top-down perspective. IEEE Trans. on Visualization and Computer Graphics, 2010,16(6):999−1008. [doi: 10.1109/TVCG.2010.177] [46] Chuah MC, Roth SF. On the semantics of interactive visualizations. In: Gershon N, ed. Proc. of the INFOVIS. San Francisco: IEEE Press, 1996. 29−36. [doi: 10.1109/INFVIS.1996.559213] [47] Puerta A, Eisenstein J. Towards a general computational framework for model-based interface development systems. Knowledge- Based Systems, 1999,12(8):433−442. [doi: 10.1016/S0950-7051(99)00037-4] [48] Ren L, Wang WX, Zhou MJ, Teng DX, Ma CX, Dai GZ, Wang HA. A model driven development method for interactive information visualization. Ruan Jian Xue Bao/Journal of Software, 2008,19(8):1947−1964 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/19/1947.htm [doi: 10.3724/SP.J.1001.2008.01947] [49] Ren L, Tian F, Zhang X, Zhang L. DaisyViz: A model-based user interface toolkit for interactive information visualization systems. Journal of Visual Languages and Computing, 2010,21(4):209−229. [doi: 10.1016/j.jvlc.2010.05.003] [50] Du Y, Ren L. DaisyVA: An intelligent interactive visualization platform for visual analysis of multi-fact information. Journal of Computer-Aided Design & Computer Graphics, 2013,25(8):1177−1182 (in Chinese with English abstract). [51] Viegas FB, Wattenberg M. Tag clouds and the case for vernacular visualization. Interactions, 2008,15(4):49−52. [doi: 10.1145/1374489.1374501] [52] Viegas FB, Wattenberg M, Feinberg J. Participatory visualization with wordle. IEEE Trans. on Visualization and Computer Graphics, 2009,15(6):1137−1144. [doi: 10.1109/TVCG.2009.171] [53] Koh K, Lee B, Kim B. ManiWordle: Providing flexible control over wordle. IEEE Trans. on Visualization and Computer Graphics, 2010,16(6):1190−1197. [doi: 10.1109/TVCG.2010.175] [54] Collins C, Viegas FB, Wattenberg M. Parallel tag clouds to explore and analyze faceted text corpora. In: Stasko E, van Wijk JJ, eds. Proc. of the VAST. Atlantic City: IEEE Press, 2009. 91−98. [doi: 10.1109/VAST.2009.5333443] [55] Cui W, Wu Y, Liu S, Wei F, Zhou MX, Qu H. Context-Preserving dynamic word cloud visualization. In: North S, Shen HW, van Wijk JJ, eds. Proc. of the PacificVis. Taipei: IEEE Press, 2010. 121−128. [doi: 10.1109/PACIFICVIS.2010.5429600] [56] Wu Y, Provan T, Wei F, Liu S, Ma KL. Semantic-Preserving word clouds by seam carving. Computer Graphics Forum, 2011,30(3): 741−750. [doi: 10.1111/j.1467-8659.2011.01923.x] [57] Zhao J, Chevalier F, Collins C, Balakrishnan R. Facilitating discourse analysis with interactive visualization. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2639−2648. [doi: 10.1109/TVCG.2012.226] [58] Collins C, Carpendale S, Penn G. DocuBurst: Visualizing document content using language structure. Computer Graphics Forum, 2009,28(3):1039−1046. [doi: 10.1111/j.1467-8659.2009.01439.x] [59] Paulovich FV, Minghim R. Hipp: A novel hierarchical point placement strategy and its application to the exploration of document collections. IEEE Trans. on Visualization and Computer Graphics, 2008,14(6):1229−1236. [doi: 10.1109/TVCG.2008.138] [60] Havre S, Hetzler E, Whitney P, Nowell L. Themeriver: Visualizing thematic changes in large document collections. IEEE Trans. on Visualization and Computer Graphics, 2002,8(1):9−20. [doi: 10.1109/2945.981848] 任磊 等:大数据可视分析综述 1933 [61] Cui W, Liu S, Tan L, Shi C, Song Y, Gao Z, Qu H, Tong X. TextFlow: Towards better understanding of evolving topics in text. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2412−2421. [doi: 10.1109/TVCG.2011.239] [62] Luo D, Yang J, Krstajic M, Ribarsky W, Keim DA. Eventriver: Visually exploring text collections with temporal references. IEEE Trans. on Visualization and Computer Graphics, 2012,18(1):93−105. [doi: 10.1109/TVCG.2010.225] [63] Schreck T, Keim DA. Visual analysis of social media data. Computer, 2013,46(5):68−75. [doi: 10.1109/MC.2012.430] [64] Herman I, Melancon G, Marshall MS. Graph visualization and navigation in information visualization: A survey. IEEE Trans. on Visualization and Computer Graphics, 2000,6(1):24−43. [doi: 10.1109/2945.841119] [65] Shneiderman B. Tree visualization with tree-maps: 2-d spacing-filling approach. ACM Trans. on Graphics, 1992,11(1):92−99. [doi: 10.1145/102377.115768] [66] Zhang X, Yuan XR. Treemap visualization. Journal of Computer-Aided Design & Computer Graphics, 2012,24(9):1113−1124 (in Chinese with English abstract). [67] Balzer M, Deussen O. Voronoi treemaps. In: Andrews K, ed. Proc. of the INFOVIS. Los Alamitos: IEEE Press, 2005. 49−56. [doi: 10.1109/INFOVIS.2005.40] [68] Ren L, Wang WX, Teng DX, Ma CX, Dai GZ, Wang HA. Fisheye view for visualizaiton of large tree by packing nested circles. Journal of Computer-Aided Design & Computer Graphics, 2008,20(3):298−303 (in Chinese with English abstract). [69] Gou L, Zhang X. Treenetviz: Revealing patterns of networks over tree structures. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2449−2458. [doi: 10.1109/TVCG.2011.247] [70] Cui W, Zhou H, Qu H, Wong PC, Li X. Geometry-Based edge clustering for graph visualization. IEEE Trans. on Visualization and Computer Graphics, 2008,14(6):1277−1284. [doi: 10.1109/TVCG.2008.135] [71] Telea A, Ersoy O. Image-Based edge bundles: Simplified visualization of large graphs. Computer Graphics Forum, 2010,29(3): 843−852. [doi: 10.1111/j.1467-8659.2009.01680.x] [72] Selassie D, Heller B, Heer J. Divided edge bundling for directional network data. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2354−2363. [doi: 10.1109/TVCG.2011.190] [73] Hurter C, Ersoy O, Telea A. Graph bundling by kernel density estimation. Computer Graphics Forum, 2012,31(3):865−874. [doi: 10.1111/j.1467-8659.2012.03079.x] [74] Ersoy O, Hurter C, Paulovich FV, Cantareiro G, Telea A. Skeleton-Based edge bundling for graph visualization. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2364−2373. [doi: 10.1109/TVCG.2011.233] [75] Abello J, van Ham F, Krishnan N. ASK-Graphview: A large scale graph visualization system. IEEE Trans. on Visualization and Computer Graphics, 2006,12(5):669−676. [doi: 10.1109/TVCG.2006.120] [76] Liu S, Wu Y, Wei E, Liu M, Liu Y. Storyflow: Tracking the evolution of stories. IEEE Trans. on Visualization and Computer Graphics, 2013,19(12):2436−2445. [doi: 10.1109/TVCG.2013.196] [77] Halevi G, Moed H. The evolution of big data as a research and scientific topic: Overview of the literature. Research Trends, 2012, 30(1):3−6. [78] Hey T, Gannon D, Pinkelman J. The future of data-intensive science. Computer, 2012,45(5):81−82. [doi: 10.1109/MC.2012.181] [79] Tobler W. Experiments in migration mapping by computer. The American Cartographer, 1987,14(2):155−163. [doi: 10.1559/ 152304087783875273] [80] Phan D, Xiao L, Yeh R, Hanrahan P, Winograd T. Flow map layout. In: Andrews K, ed. Proc. of the INFOVIS. Los Alamitos: IEEE Press, 2005. 219−224. [doi: 10.1109/INFOVIS.2005.13] [81] Buchin K, Speckmann B, Verbeek K. Flow map layout via spiral trees. IEEE Trans. on Visualization and Computer Graphics, 2011, 17(12):2536−2544. [doi: 10.1109/TVCG.2011.202] [82] Scheepens R, Willems N, Van de Wetering H, Andrienko G, Andrienko N, van Wijk JJ. Composite density maps for multivariate trajectories. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2518−2527. [doi: 10.1109/TVCG.2011.181] [83] Peuquet DJ, Kraak MJ. Geobrowsing: Creative thinking and knowledge discovery using geographic visualization. Information Visualization, 2002,1(1):80−91. [doi: 10.1057/palgrave.ivs.9500007] [84] Rhyne TM, MacEachren AM, Dykes J. Exploring geovisualization. IEEE Computer Graphics and Applications, 2006,26(4):20−21. [doi: 10.1109/MCG.2006.80] [85] Demsar U, Virrantaus K. Space-Time density of trajectories: Exploring spatio-temporal patterns in movement data. Int’l Journal of Geographical Information Science, 2010,24(10):1527−1542. [doi: 10.1080/13658816.2010.511223] [86] Tominski C, Schumann H, Andrienko G, Andrienko N. Stacking-Based visualization of trajectory attribute data. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2565−2574. [doi: 10.1109/TVCG.2012.265] [87] Slingsby A, Dykes J, Wood J. Exploring uncertainty in geodemographics with interactive graphics. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2545−2554. [doi: 10.1109/TVCG.2011.197] 1934 Journal of Software 软件学报 Vol.25, No.9, September 2014 [88] Keim DA, Kriegel HP. Visualization techniques for mining large databases: A comparison. IEEE Trans. on Knowledge and Data Engineering, 1996,8(6):923−938. [doi: 10.1109/69.553159] [89] Ahlberg C, Shneiderman B. Visual information seeking: Tight coupling of dynamic query filters with starfield displays. In: Beth A, Susan D, Judith O, eds. Proc. of the CHI. New York: ACM Press, 1994. 313−317. [doi: 10.1145/191666.191775] [90] Elmqvist N, Draqicevic P, Fekete JD. Rolling the dice: Mulitidimensional visual exploration using Scatterplot matrix navigation. IEEE Trans. on Visualization and Computer Graphics, 2008,14(6):1539−1548. [doi: 10.1109/TVCG.2008.153] [91] Yang J, Hubball D, Ward MS, Rundensterner EA, Ribarsky W. Value and relation display: Interactive visual exploration of large data sets with hundreds of dimensions. IEEE Trans. on Visualization and Computer Graphics, 2007,13(3):494−507. [doi: 10.1109/TVCG.2007.1010] [92] Joia P, Coimbra D, Cuminato JA, Paulovich FV, Nonato LG. Local affine multidimensional projection. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2563−2571. [doi: 10.1109/TVCG.2011.220] [93] Lee JH, McDonnell KT, Zelenyuk A, Imre D, Mueller K. A structure-based distancemetric for high-dimensional space exploration with multi-dimensional scaling. IEEE Trans. on Visualization and Computer Graphics, 2014,20(3):351−364. [doi: 10.1109/ TVCG.2013.101] [94] Turkay C, Lundervold A, Lundervold AJ, Hauser H. Representative factor generation for the interactive visual analysis of high- dimensional data. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2621−2630. [doi: 10.1109/TVCG.2012.256] [95] Inselberg A, Dimsdale B. Parallel coordinates: A tool for visualizing multi-dimensional geometry. In: Kaufman A, ed. Proc. of the Visualization. San Francisco: IEEE Press, 1990. 361−378. [doi: 10.1109/VISUAL.1990.146402] [96] Claessen JHT, van Wijk JJ. Flexible linked axes for multivariate data visualization. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2310−2316. [doi: 10.1109/TVCG.2011.201] [97] Geng Z, Peng Z, Laramee RS, Roberts JC, Walker R. Angular histograms: Frequency-Based visualizations for large, high dimensional data. IEEE Trans. on Visualization and Computer Graphics, 2011,17(12):2572−2580. [doi: 10.1109/TVCG.2011.166] [98] Heer J, Shneiderman B. Interactive dynamics for visual analysis. Queue, 2012,10(2):30−55. [doi: 10.1145/2133416.2146416] [99] Shrinivasan YB, van Wijk JJ. Supporting the analytical reasoning process in information visualization. In: Czerweinski M, Lund A, Tan D, eds. Proc. of the CHI. New York: ACM Press, 2008. 1237−1246. [doi: 10.1145/1357054.1357247] [100] Wright W, Schroh D, Proulx P, Skaburskis A, Cort B. The sandbox for analysis: Concepts and evaluation. In: Grinter R, Rodden T, Cutrell E, Jefferis R, Olson G, eds. Proc. of the CHI. New York: ACM Press, 2006. 801−810. [doi: 10.1145/1124772.1124890] [101] Wu Y, Yuan GX, Ma KL. Visualizing flow of uncertainty through analytic processes. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2526−2635. [doi: 10.1109/TVCG.2012.285] [102] Heer J, Agrawala M. Design considerations for collaborative visual analytics. Information Visualization, 2008,7(1):49−62. [doi: 10.1057/palgrave.ivs.9500167] [103] Walker R, Slingsby A, Dykes J, Xu K, Wood J, Nguyen P, Stephens D, Wong BLW, Zheng Y. An extnsible framework for provenance in human terrain visual analytics. IEEE Trans. on Visualization and Computer Graphics, 2013,19(12):2139−2248. [doi: 10.1109/TVCG.2013.132] [104] Liu S, Zhou MX, Pan S, Song Y, Qian W, Cai W, Lian X. Tiara: Interactive, topic-based visual text summarization and analysis. ACM Trans. on Intelligent Systems and Technology, 2012,3(2):1−28. [doi: 10.1145/2089094.2089101] [105] Hornbæk K, Bederson BB, Plaisant C. Navigation patterns and usability of zoomable user interfaces with and without an overview. ACM Trans. on Computer-Human Interaction, 2002,9(4):362−389. [doi: 10.1145/586081.586086] [106] Elmqvist N, Do TN, Goodell H, Henry N, Fekete JD. ZAME: Interactive large-scale graph visualization. In: Fujishiro I, Li H, Ma KL, eds. Proc. of the PacificVis. Kyoto: IEEE Press, 2008. 215−222. [doi: 10.1109/PACIFICVIS.2008.4475479] [107] Furnas GW. A fisheye follow-up: Further reflections on focus+context. In: Grinter R, Roden T, Aoki P, Cutrell E, Jeffries R, Olson G, eds. Proc. of the CHI. New York: ACM Press, 2006. 999−1008. [doi: 10.1145/1124772.1124921] [108] Bertin J. Graphics and graphic information processing. 2014. http://www.cs.umd.edu/class/spring2002/cmsc838f/Bertin.ppt [109] Larkin JH, Simon HA. Why a diagram is (sometimes) worth ten thousand words. Cognitive Science, 1987,11(1):65−99. [doi: 10.1111/j.1551-6708.1987.tb00863.x] [110] Spence R. Information Visualization: Design for Interaction. 2nd ed., New Jersey: Prentice Hall, 2007. 1−304. [111] Lamping J, Rao R, Pirolli P. A focus+context technique based on hyperbolic geometry for visualizing large hierarchies. In: Katz IR, Mack R, Marks L, Rosson MB, Nielsen J, eds. Proc. of the CHI. New York: ACM Press, 1995. 401−408. [112] Yee KP, Fisher D, Dhamija R, Hearst MS. Animated exploration of dynamic graphs with radial layout. In: Andrews K, Roth S, Wong PC, eds. Proc. of the INFOVIS. San Diego: IEEE Press, 2001. 43−50. [doi: 10.1109/INFVIS.2001.963279] [113] Heer J, Card SK. DOITrees revisited: Scalable, space-constrained visualization of hierarchical data. In: Costabile MF, ed. Proc. of the AVI. New York: ACM Press, 2004. 421−424. [doi: 10.1145/989863.989941] 任磊 等:大数据可视分析综述 1935 [114] Bederson BB. Fisheye menus. In: Ackerman M, Edwards K, eds. Proc. of the UIST. New York: ACM Press, 2000. 217−226. [doi: 10.1145/354401.354782] [115] Paek T, Dumais S, Logan R. WaveLens: A new view onto internet search results. In: Dykstra E, Tscheligi M, eds. Proc. of the CHI. New York: ACM Press, 2004. 727−734. [doi: 10.1145/985692.985784] [116] Bederson BB, Clamage A, Czerwinski MP, Robertson GG. DateLens: A fisheye calendar interface for PDAs. ACM Trans. on Computer-Human Interaction, 2004,11(1):90−119. [doi: 10.1145/972648.972652] [117] Fedak C, Gutwin C. Improving revisitation in fisheye views with visit wear. In: Kellogg W, Zhai S, eds. Proc. of the CHI. New York: ACM Press, 2005. 771−780. [doi: 10.1145/1054972.1055079] [118] Carpendale S, Light J, Pattison E. Achieving higher magnification in context. In: Feiner SK, Landy JA, eds. Proc. of the UIST. New York: ACM Press, 2004. 71−80. [doi: 10.1145/1029632.1029645] [119] Tu Y, Shen HW. Balloon focus: A seamless multi-focus+context method for treemaps. IEEE Trans. on Visualization and Computer Graphics, 2008,14(6):1157−1164. [doi: 10.1109/TVCG.2008.114] [120] Ren L, Wang WX, Teng DX, Ma CX, Dai GZ, Wang HA. A focus+context technique for interactive visualization of large hierarchies. Ruan Jian Xue Bao/Journal of Software, 2008,19(11):3073−3082 (in Chinese with English abstract). http://www.jos. org.cn/1000-9825/19/3073.htm [doi: 10.3724/SP.J.1001.2008.03073] [121] Ren L, Zhang L, Teng DX, Dai GZ, Li Q. DOI-Wave: A focus+context interaction technique for networks based on attention- reactive interface. In: Huang ML, Nguyen QV, Zhang K, eds. Proc. of the Visual Information Communication. New York: Springer-Verlag, 2009. 85−94. [doi: 10.1007/978-1-4419-0312-9_5] [122] Pietriga E, Appert C. Sigma lenses focus-context transitions combining space time and translucence. In: Czerweinski M, Lund A, Tan D, eds. Proc. of the CHI. New York: ACM Press, 2008. 1343−1352. [doi: 10.1145/1357054.1357264] [123] Zhao J, Collins C, Chevalier F, Balakrishnan R. Interactive exploration of implicit and explicit relations in facet datasets. IEEE Trans. on Visualization and Computer Graphics, 2013,19(12):2080−2089. [doi: 10.1109/TVCG.2013.167] [124] Dörk M, Riche NH, Ramos G, Dumais ST. Pivotpaths: Strolling through faceted information spaces. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2709−2718. [doi: 10.1109/TVCG.2012.252] [125] Dai GZ, Tian F. Pen-Based User Interface. Press of USCT, 2009. 1−425 (in Chinese). [126] Walny J, Lee B, Johns P, Riche NH, Carpendale S. Understanding pen and touch interaction for data exploration on interactive whiteboards. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2779−2788. [doi: 10.1109/TVCG.2012.275] [127] Tominski C, Forsell C, Johansson J. Interaction support for visual comparison inspired by natural behavior. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2719−2728. [doi: 10.1109/TVCG.2012.237] [128] Isenberg P, Fisher D, Paul SA, Morris MR, Inkpen K, Czerwinski M. Co-Located collaborative visual analytics around a tabletop display. IEEE Trans. on Visualization and Computer Graphics, 2012,18(5):689−702. [doi: 10.1109/TVCG.2011.287] [129] Block F, Horn MS, Phillips BC, Diamond J, Evans EM, Shen C. The deeptree exhibit: Visualizing the tree of life to facilitate informal learning. IEEE Trans. on Visualization and Computer Graphics, 2012,18(12):2789−2798. [doi: 10.1109/TVCG.2012.272] [130] Lee B, Kazi RH, Smith G. SketchStory: Telling more engaging stories with data through freeform sketching. IEEE Trans. on Visualization and Computer Graphics, 2013,19(12):2416−2425. [doi: 10.1109/TVCG.2013.191] [131] Liu Z, Jiang B, Heer J. imMens: Real-time visual querying of big data. Computer Graphics Forum, 2013,32(3):421−430. [132] Elmqvist N, Fekete JD. Hierarchical aggregation for information visualization: Overview, techniques, and design guidelines. IEEE Trans. on Visualization and Computer Graphics, 2010,16(3):439−454. [doi: 10.1109/TVCG.2009.84] [133] Zhou H, Yuan XR, Qu HM, Cui WW, Chen BQ. Visual clustering in parallel coordinates. Computer Graphics Forum, 2008,27(3): 1047−1054. [doi: 10.1111/j.1467-8659.2008.01241.x] [134] Shneiderman B. Extreme visualization: Squeezing a billion records into a million pixels. In: Lakshmanan LVS, Ng RT, Shasha D, eds. Proc. of the SIGMOD. New York: ACM Press, 2008. 3−12. [doi: 10.1145/1376616.1376618] [135] Li BH, Zhang L, Ren L, Chai XD, Tao F, Luo YL, Wang YZ, Yin C, Huang G, Zhao XP. Further discussion on cloud manufacturing. Computer Integrated Manufacturing Systems, 2011,17(3):449−457 (in Chinese with English abstract). [136] Li BH, Zhang L, Ren L, Chai XD, Tao F, Wang YZ, Yin C, Huang P, Zhao XP, Zhou ZD. Typical characteristics, technologies and applications of cloud manufacturing. Computer Integrated Manufacturing Systems, 2011,18(7):1345−1356 (in Chinese with English abstract). [137] Ma CX, Ren L, Teng DX, Wang HA, Dai GZ. Ubiquitous human-computer interaction in cloud manufacturing. Computer Integrated Manufacturing Systems, 2011,17(3):504−510 (in Chinese with English abstract). [138] Ren L, Zhang L, Tao F, Zhang X, Luo Y, Zhang Y. A methodology towards virtualisation-based high performance simulation platform supporting multidisciplinary design of complex products. Enterprise Information Systems, 2012,6(3):267−290. [doi: 10.1080/17517575.2011.592598] 1936 Journal of Software 软件学报 Vol.25, No.9, September 2014 [139] Ren L, Zhang L, Tao F, Zhao C, Chai XD, Zhao XP. Cloud manufacturing: From concept to practice. Enterprise Information Systems, 2013. [doi: 17517575.2013.839055] [140] Ren L, Zhang L, Wang L, Tao F, Chai XD. Cloud manufacturing: Key characteristics and applications. Int’l Journal of Computer Integrated Manufacturing, 2014. [doi: 10.1080/0951192X.2014.902105] [141] Dai G, Chen W, Hong W, Liu S, Qu H, Yuan X, Zhang J, Zhang K. Information visualization and visual analytics: challenges and opportunities. Science China: Information Science, 2013,43(1):178−184 附中文参考文献: [7] 袁晓如.大数据时代可视化与可视分析的机遇与挑战.2013. http://www.chinacloud.cn/upload/2013-12/13122814565172.pdf [8] 任磊.信息可视化中的交互技术研究[博士学位论文].北京:中国科学院软件研究所,2009. [48] 任磊,王威信,周明骏 ,滕东兴,马翠霞 ,戴国忠,王宏安 .一种模型驱动的交互式信息可视化开发方法 .软件学报,2008,19(8): 1947−1964. http://www.jos.org.cn/1000-9825/19/1947.htm [doi: 10.3724/SP.J.1001.2008.01947] [50] 杜一,任磊.DaisyVA:支持信息多面体可视分析的智能交互式可视化平台 .计算机辅助设计与图形学学报 ,2013,25(8): 1177−1182. [66] 张昕,袁晓如.树图可视化.计算机辅助设计与图形学学报,2012,24(9):1113−1124. [68] 任磊,王威信 ,滕东兴 ,马翠霞,戴国忠,王宏安.面向海量层次信息可视化的嵌套圆鱼眼视图 .计算机辅助设计与图形学学报 ,2008, 20(3):298−303. [120] 任磊,王威信 ,滕东兴,马翠霞 ,戴国忠,王宏安 .海量层次信息的 Focus+Context 交互式可视化技术.软件学报,2008,19(11): 3073−3082. http://www.jos.org.cn/1000-9825/19/3073.htm [doi: 10.3724/SP.J.1001.2008.03073] [125] 戴国忠,田丰.笔式用户界面.北京:中国科学技术大学出版社,2009.1−425. [135] 李伯虎,张霖,任磊,罗永亮,王勇智,尹超,黄刚,赵欣培.再论云制造.计算机集成制造系统,2011,17(3):449−457. [136] 李伯虎,张霖,任磊,柴旭东 ,陶飞,王勇智,尹超,黄培,赵欣培,周祖德.云制造典型特征、关键技术与应用 .计算机集成制造系统 , 2011,18(7):1345−1356. [137] 马翠霞,任磊,滕东兴,王宏安,戴国忠.云制造环境下的普适人机交互技术.计算机集成制造系统,2011,17(3):504−510. [141] 戴国忠,陈为,洪文学,刘世霞,屈华民 ,袁晓如,张加万,张康.信息可视化和可视分析 :挑战与机遇——北戴河信息可视化战略研讨 会总结报告.中国科学:信息科学,2013,43(1):178−184. 任磊(1979-),男,山东济南人 ,博士,副教 授,主要研究领域为信息可视化,云制造. E-mail: renlei@buaa.edu.cn 张小龙(1971-),男,副教授,博士生导师 , 主要研究领域为知识可视化,人机交互. E-mail: lzhang@ist.psu.edu 杜一(1988-),男,博士,助理研究员 ,主要 研究领域为信息可视化,人机交互. E-mail: duyi@cnic.cn 戴国忠(1944-),男 ,研究员,博士生导 师,CCF 高级会员,主要研究领域为人机 交互. E-mail: dgz@iel.iscas.ac.cn 马帅(1975- ),男 ,博士,教授,博士生导 师,CCF 高级会员,主要研究领域为数据库 理论与系统. E-mail: mashuai@buaa.edu.cn
还剩27页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 2 人已下载

下载pdf

pdf贡献者

bgn4

贡献于2015-05-11

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf