大数据可视化系统
作者:毫末科技
邮箱:hxg@haomo-studio.com
微信二维码:
1 系统概述
1.1 什么是大数据可视化系统
数据可视化是将数据以不同形式展现在系统中,其中包括属性和变量的单位信息、将结构或非结构数据转换成适当的可视化图表,然后将隐藏在数据中的信息直接展现于人们面前。数据可视化系统是囊括了交互技术。通过专业的统计数据分析能力,建立数据不同维度数据之间的联系,发现数据背后的内在规律。
特点:
- 1)把庞杂的大数据直观的展现到决策的面前,节省时间,使工作变得更加高效;
- 2)利用数据更好的分析用户,针对性的为用户提供服务,增加数据背后与用户的互动性;
- 3) 发现数据数据背后的规律,掌握事物变化趋势审时度势。
数据处理流程
数据清理集成 → 数据存储整合 → 数据分析挖掘 → 可视化呈现 → 人机交互体验
1.2 发展历史
从历史数据处理分析 → 可视化的静态历史数据呈现 → 获取实时动态数据的交互式可视化
1.3 发展现状
环境: 截止到2011年底,全球网民数达22.67亿;截止到2012年6月,中国网民达5.38亿。庞大的网民每时每刻产生大量的数据,据统计:每一分钟全球电子邮件用户共计发出2.04亿封电子邮件;谷歌会处理200万次搜索;Facebook用户会共享68.4万比特的内容……同时,目前用户在网上不仅仅是资讯,同时用户发微博、上传照片、上传视频等,导致数据类型呈现多样性。用户所产生的数据量还将呈现出爆炸式的增长态势 。 行业现状:
- 1.以BAT为代表的互联网公司通过不断的挖掘沉淀大数据,利用大数 据驱动自身业务的增长。
- 2.信息化建设相对完善的金融和电信行业也以是大数据领域的先行者。面对互联网金融的冲击,金融机构积极采用大数据分析来进行客户管理、营销管理、风险管理以及内部的运营优化;移动流量的激增对电信运营商实时的数据处理能力、网络优化能力等提出更高要求,其大数据应用主要集中在流量运营、精准营销等领域。
- 3.政府和传统制造业也在积极加强大数据建设,与各行各业的结合让大数据的应用场景越来越丰富。
数据可视化大大了降低大数据的使用门槛,让大数据走向平民化。通过专业的统计数据分析系统,建立数据不同维度数据之间的联系,发现数据背后的内在规律;通过整合多视图的大屏展示,直观清晰的呈现数据,高效准确、精简全面的传递信息推动了大数据产业规模的增长。
1.4 未来趋势
数据价值日益凸显,大数据可视化系统发展空间可观
自2012年以来,中国大数据软件和服务行业市场规模增长迅速。2017年,大数据软件市场规模103.0亿元,同比增长41.9%;大数据服务市场规模60.1亿元,同比增长44.9%,目前仍呈上升趋势,软件市场占比高于服务市场的原因是用户更习惯于软件许可授权的付费模式。企业逐渐认可数据作为无形资产存在的价值,并意识到大数据及大数据背后所携带的信息对企业的重要性。
2 系统目标及意义
- 1.规范、控制和提供数据及信息资产的业务职能,
- 2.开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序从而控制、保护、交付和提高数据资产的价值。
- 3.对传统数据管理的扩充和升级,通过降低企业数据使用的成本
- 4.数据可视化不是简单的把数字用图表表示,而是就是帮助人,发现数据后的规律。提高以数据指导管理决策的效率
3 系统组成
4 系统实施
4.1 流程
4.2 挑战
1)数据集成与接口的问题
- 大数据可视化所依赖的基础是数据,而大数据时代数据的来源众多。且对来自于异构环境,即使获得数据源,得到的数据的完整性、一致性、准确性都难以保证。
- 数据质量的不确定问题将直接影响可视化分析的科学性和准确性,大数据可视化的前提是建立在集成的数据接口,并且与可视化分析系统形成松耦合的接口关系,以供各种可视化算法方便的调用,使得可视化分析系统的研发者和使用者不需要关系数据接口背后的复杂机理。
2)可扩展性问题
- 数据量的无限积累与数据的持续演化,导致普通计算机的处理能力难以达到理想的范围,同时主流显示设备的像素数也难以跟上大数据增长的脚步,造成像素的总和还不如要可视化的数据多而且,大量在较小的数据规模下可行的可视化技术在面临极端大规模数据时讲无能为力。
- 数据可视化分析系统应该具有较好的可扩展性,即感知扩展性和交互扩展性只取决于可视化的精度而不是依赖数据规模的大小,以支持实时的可视化与交互操作。因此,未来如何面对超高维数据的降维以降低数据规模,如何结合大规模并行处理方法与超级计算机,如何将目前有价值的可视化算法和人机交互技术提升和拓展到大数据领域,将是未来严峻的挑战。
3)可视化与数据挖掘技术之间的松散关系问题
- 目前,可视化技术运用于数据,一般是作为表达工具,解决负责结构的数据和显示分析结构,而分析方法本身并不包括可视化。现有的项目插入策略,知识简单 将分析过程和图形可视化交错在一起,这突出了两者的欠缺和限制。
- 一个更强的可视化数据挖掘策略依赖于将可视化与分析过程紧密结合起来形成一个统一强大的可视化数据挖掘工具。目前,使人类可视地参与到分析过程中以实现决策支持依然是一个主要的挑战:以基于可视化的人类决策代替一个分析过程的某以数据步骤;当决策不再能够自动生成时,以可视化支持人类来及处理决策。
5 产品介绍
5.1 商业产品
5.1.1 Tableau
简介
tableau是一款可视化商业智能工具软件,它能帮助人们认识和理解数据,是一款极速开发和实现的商务智能工具。
功能模块
优点:
- 1 优秀的数据可视化展示效果,数据图表制作能力强
- 2 操作简单,上手快不需要写代码,数据的导入和加载都是向导式
- 3 内置美观的可视化图表,不用考虑配色,表格处理好格式即可
- 4 通过 Tableau,处理上亿行数据,只需几秒就能得到结果、比传统的数据库查询快 10 到 100
缺点:
- 1)基于数据查询的工具,难以处理不规范数据,难以转化复杂模型。
- 2)对输入数据类型有要求,运行起来比较慢,且只能支持PC电脑。
- 3)非实时数据,安全性略弱
5.1.2 LightningChart
简介
LightningChart运用了DirectX底层技术彻底发挥了GPU加速和性能优化的最大效应,能够轻易实时呈现超过10亿以上数据点的庞大数据。图形采用创新的CPU负载节省技术与高效利用内存资源,为应用程序提供了无与伦比的性能,如: 实时监测中无闪烁或延迟现象, 高分辨率数据集, 强交互性, 有效利用技术资源, 运用较旧的电脑硬件也可以保持强大功能. LightningChart 包含成百上千种2D和3D图表类型,极地图,史密斯图,地理地图。灵活的可定制的图表元素,最佳的视觉效果,强大的交互能力, 优秀的鼠标跟踪能力,及触摸屏操作等, 完美提升数据分析系统。
应用优势
1)科学和工程应用
- 实时测量数据监测
- 多通道波形显示
- 音频和数字信号处理应用
2)制作&状态监测应用
- FFT 和光谱可视化,2D和3D光谱图
- 装配线质量监测
3)能源生产&分配应用
- 石油钻探和机械振动指标
- 电厂过程监测
- 分布式网络状态监测
4)医疗应用
- EEG, EKG, EMG 多通道监测
- 病人监护仪
- 3D 脑活动监测
5)财务&交易应用
- 实时汇率监测
- 历史数据审查和分析
- 交易算法开发
6)航空航天&防务应用
- 空域状态视图
- 无人机遥测
- 军用雷达显示,天气雷达
- 海底监测
5.1.3 FusionCharts
简介
FusionCharts是InfoSoft Global公司的产品,是一个跨平台,跨浏览器的JavaScript图表组件,适用于创建Web和移动JavaScript图表。目前在全球有45万用户选择Fusioncharts来制作专业的JavaScript图表。提供互动性和强大的图表。使用XML作为其数据接口, FusionCharts充分利用流体美丽的Flash创建紧凑,互动性和视觉逮捕图表。
优点
- 1 图表类型非常丰富,支持2D、3D图表
- 2 图表渲染速度快,外观及交互方式很炫
- 3 可以导出为图形,允许将其嵌入到报告中
缺点
- 1 使用起来不够灵活
5.2 开源产品
5.2.1 Apache Superset
简介
superset是一个开源的数据探查与可视化平台
主要功能
- 1 快速创建可交互的、直观形象的数据集合
- 2 有丰富的可视化方法来分析数据,且具有灵活的扩展能力
- 3 具有可扩展的、高粒度的安全模型,可以用复杂规则来控制访问权限。目前支持主要的认证提供商:DB、OpenID、LDAP、OAuth、和Flask AppBuiler的REMOTE_USER
- 4 使用简单的语法,就可以控制数据在UI中的展现方式
- 5 与Druid深度结合,可快速的分析大数据
- 6 配置缓存来快速加载仪表盘
功能模块
优缺点
5.2.2 metabase
简介
Metabase是一个简单、开源的数据呈现方式,通过给公司成员、分析师新建Question,从而得到数据进行分析、学习。
功能特点
- 1 将数据分析常用的查询通过通过一个易于操作的界面来操作
- 2 为分析师提供不同的数据查询模式
- 3 分析师可创建规范细分和指标以供团队中其他人员使用
- 4 业务人员可可以保存分析结果并且分享给团队里其他成员
- 5 团队中开发人员也可以把复杂的查询写好,把结果共享给业务人员
- 6 提供仪表盘与自动刷新、全屏模式
- 7 可定时发送数据到Pulses(配置邮箱)
优点
- 1 非技术分析人员容易上手,操作门槛低
- 2 Metabase官网指南详细,环境部署简单
- 3 可视化的选项很多,比如只要定义了Date字段,可以方便的在不同时间维度做Aggregation(日/周/月)柱状图、折线图展现等
- 4 Dashboard支持分类,便于管理和查找
- 5 支持可无需账号对外共享数据和图表,同时支持权限控制
缺点
- 1 每次只能选择一个数据库查询,自定义sql模式可支持join
- 2 支持分析查询参数配置,但是复选框中的备选条件不易实现,需在数据表中占独立字段,增大存储空间
- 3 类似同一张图上实现不同日期的折线图对比需要自定义sql实现,增加分析人员使用难度
- 4 仅支持UTF-8编码
5.2.3 Echarts
简介
ECharts由百度出品,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖轻量级的矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。
功能模块
优点
- 1 添加DOM元素,具备足够大小
- 2 多种数据格式无需转换直接使用
- 3 减少代码量,提高复用度,可快速定位,批量修改
- 4 增强可控性,同时保证个性定制
- 5 模块化引入和单文件引入。在开发时你可以引用所有echarts开发文件,方便开发和调试
- 6 折、柱、散点、K线20万数据,秒级出图
- 7 绚丽的特效,通过 GL 实现更多更强大绚丽的三维可视化
缺点
- 1 自定义开发比较困难;
- 2 在IE8环境下不少动画效果会打折扣或者根本显示不出来;
- 3 缺乏立体效果图的支持等;
5.2.4 druid
简介
Druid是阿里巴巴开源平台上的一个项目,整个项目由数据库连接池、插件框架和SQL解析器组成。该项目主要是为了扩展JDBC的一些限制,可以让程序员实现一些特殊的需求,比如向密钥服务请求凭证、统计SQL信息、SQL性能收集、SQL注入检查、SQL翻译等,程序员可以通过定制来实现自己需要的功能。
产品组成
Druid是一个JDBC组件,它包括三个部分:
- 1 基于Filter-Chain模式的插件体系。
- 2 DruidDataSource 高效可管理的数据库连接池。
- 3 SQLParser
其他的开源的产品:
- addepar
- amcharts
- anychart
- slemma
- cartodb
- Cube
- d3plus
- Data-Driven Documents(D3js)
- datahero
- dygraphs
- ECharts
- exhibit
- Gatherplot
- gephi
- ggplot2
- Glue
- Google Chart Gallery
- highcarts
- import.io
- jqplot
- Matplotlib
- nvd3
- Opendata-tools - list of open source data visualization tools
- Openrefine
- plot.ly
- raw
- rcharts
- techanjs
- tenxer
- Timeline
- variancecharts
- vida
- Wolframalpha
- Wrangler
- r2d3
- NetworkX - High-productivity software for complex networks