主题 : 带你走进数据可视化背后的七个秘密
千山同一月 万户尽皆春 千江有水千江月 万里无云万里天
级别: 总版主

UID: 998
精华: 0
发帖: 605035
威望: 529375 点
无痕币: 8 WHB
贡献值: 0 点
在线时间: 62282(时)
注册时间: 2008-12-25
最后登录: 2024-05-02

0 带你走进数据可视化背后的七个秘密

数据可视化,特别是基于Web的数据可视化的时代已经到来,数据可视化如今成为了很多网站项目的必备功能。
过去只能由计算机专家和专业设计人员开发的复杂的可视化变得越来越简单了。
 数据可视化,特别是基于Web的数据可视化的时代已经到来了。
类似JavaScript的可视化库如D3.js,Rapha?l,以及Paper.js,以及最新浏览器所支持的如Canvas和SVG,
以及使得那些过去只能由计算机专家和专业设计人员开发的复杂的可视化变得越来越简单了。

数据可视化如今成为了很多网站项目的必备功能。
而类似于Platfora,DatameerClearStoryData以及Chartio等初创公司则可以利用基于浏览器的分析平台融到数百万美元的投资。
数据可视化是数据探索以及数据表现的重要方式,
然而,对于数据可视化的开发者来说,依然有很多挑战要去面对。
这些迎接这些挑战的方法,则是很多专业的数据可视化开发者不愿意让别人知道的秘密。
秘密一:现实中的数据往往很丑
大部分的数据可视化的教程,都会让你轻松地从一个原始数据集开始。
无论你是学习基本的柱状图还是力导向的网络图,你的数据都是干净的,经过整理的数据。
这些完美的JSON或者CSV文件就像电视里的厨艺节目中的灶台那样干净整洁。
而实际上,当你在处理现实中的真正的数据是,你80%的时间得用来搜寻,获取,载入,清洗以及转换你的数据。
这样的过程,有时候可以用自动化的工具来完成。
不过,差不多任何需要针对两个以上的数据集进行清洗的工作总会需要或多或少的人工的工作。
有很多工具能够把XLS文件转化为XML的格式或者把时间戳转换为其他日期格式。
但是,要想把一个公司的内部使用的销售类型与竞争对手进行比对,
或者对输入错误进行检查,或者对不同的Encoding或者OCR产生出来的文字进行检查时,就只能靠手工来处理了。
工具及处理方式:
1)在数据可视化项目中给数据清洗留出足够的时间,特别是在需要处理多个数据源,需要手工录入或者OCR数据,
进行不同类别的配比,或者需要处理一些非标准格式时,需要留出更多的时间。
2)GoogleRefine(编者:需要)是一个很好的数据清洗工具,
尽管在有些地方,特别是处理非表格化数据时有些不足。
此外,还有一些数据清洗专用的工具如DataWranger和Mr.DataConverter。
不过,很多的数据清洗工作仍然需要你熟悉脚本语言如Python或者需要你在Excel里进行一些手工工作。
记得把你的脚本存档,你以后肯定用得上。
3)用简单的一些散点图或者直方图来发现一些超正常范围的错误数据。
 秘密二:柱状图往往更好

各种样式的信息图
级别: 禁止发言
UID: 10412
精华:
发帖:
威望: 0 点
无痕币: WHB
贡献值:
在线时间: 0(时)
注册时间: 2008-01-23
最后登录: 1970-01-01

用户被禁言,该主题自动屏蔽!
Total 0.053830(s) query 6, Time now is:05-02 18:57, Gzip enabled 粤ICP备07514325号-1
Powered by PHPWind v7.3.2 Certificate Code © 2003-13 秋无痕论坛