李正海:关于大数据思维的一些思考

http://www.sina.com.cn 2015年03月10日 09:33 新浪城市

  数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来描述一下我所认为的大数据思维。

  首先是大数据的量,数据量足够大,达到了统计性意义,才有价值。笔者看过的一个典型的案例就是,例如传统的,收集几千条数据,很难发现血缘关系对遗传病的影响,而一旦达到2万条以上,那么发现这种影响就会非常明显。那么对于我们在收集问题时,是为了发现隐藏的知识去收集数据,还是不管有没有价值地收集,这还是值得商榷的。其实收集数据,对于数据本身,还是可以划分出一些标准,确立出层级,结合需求、目标来收集,当然有人会说,这样的话,将会导致巨大的偏差,例如说丧失了数据的完整性,有一定的主观偏向,但是笔者以为,这样至少可以让收集到的数据的价值相对较高。

  第二是大数据的种类,也可以说成数据的维度,对于一个对象,采取标签化的方式,进行标记,针对需求进行种类的扩充,和数据的量一样,笔者认为同样是建议根据需求来确立,但是对于标签,有一个通常采取的策略,那就是推荐标签和自定义标签的问题,分类法其实是人类文明的一大创举,采取推荐标签的方式,可以大幅度降低标签的总量,而减少后期的规约工作,数据收集时扩充量、扩充维度,但是在数据进入应用状态时,我们是希望处理的是小数据、少维度,而通过这种推荐、可选择的方式,可以在标准化基础上的自定义,而不是毫无规则的扩展,甚至用户的自定义标签给予一定的限制,这样可以使维度的价值更为显现。

  第三是关于时效性,现在进入了读秒时代,那么在很短的时间进行问题分析、关联推荐、决策等等,需要的数据量和数据种类相比以前,往往更多,换个说法,因为现在时效性要求高了,所以处理数据的方式变了,以前可能多人处理,多次处理,现在必须变得单人处理、单次处理,那么相应的信息系统、工作方式、甚至企业的组织模式,管理绩效都需要改变,例如笔者曾经工作的企业,上了ERP系统,设计师意见很大,说一个典型案例,以往发一张变更单,发出去工作结束,而上了ERP系统以后,就必须为这张变更单设定物料代码,设置需要查询物料的存储,而这些是以前设计师不管的,又没有为设计师为这些增加的工作支付奖励,甚至因为物料的缺少而导致变更单不能发出,以至于设计师工作没有完成,导致被处罚。但是我们从把工作一次就做完,提升企业的工作效率角度,这样的设计变更与物料集成的方式显然是必须的。那么作为一个工作人员,如何让自己的工作更全面,更完整,避免王府,让整个企业工作更具有时间的竞争力,提高数据的数量、种类、处理能力是必须的。

  第四关于大数据价值,一种说法是大数据有大价值,还有一种是相对于以往的结构化数据、少量数据,现在是大数据了,所以大数据的单位价值下降。笔者以为这两种说法都正确,这是一个从总体价值来看,一个从单元数据价值来看的问题。而笔者提出一个新的关于大数据价值的观点,那就是真正发挥大数据的价值的另外一个思路。这个思路就是针对企业的问题,首先要说什么是问题,笔者说的问题不是一般意义上的问题,因为一说问题,大家都以为不好、错误等等,而笔者的问题的定义是指状态与其期望状态的差异,包括三种模式,第一是通常意义的问题,例如失火了,必须立即扑救,其实这是三种模式中最少的一种;第二种模式是希望保持状态,第三种模式是期望的状态,这是比原来的状态高一个层级的。我们针对问题,提出一系列解决方案,这些解决方案往往有多种,例如员工的培训,例如设备的改进,例如组织的方式的变化,当然解决方案包括信息化手段、大数据手段,我们一样需要权衡大数据的方法是不是一种相对较优的方法,如果是,那么用这种手段去解决,那么也就是有价值了。例如笔者知道的一个案例,一个企业某产品部件偶尔会出现问题,企业经历数次后决定针对设备上了一套工控系统,记录材料的温度,结果又一次出现问题时,进行分析认为,如果工人正常上班操作,不应该有这样的数据记录,而经过与值班工人的质询,值班工人承认其上晚班时睡觉,没有及时处理。再往后,同样的问题再没有再次发生。

  总结起来,笔者以为大数据思维的核心还是要落实到价值上,面向问题,收集足够量的数据,足够维度的数据,达到具有统计学意义,也可以满足企业生产、客户需求、甚至竞争的时效要求,而不是一味为了大数据而大数据,这样才是一种务实、有效的正确思维方式,是一线大数据的有效的项目推进方式,在这样的思维模式基础上,采取滚雪球方式,把大数据逐步展开,才真正赢来大数据百花齐放的春天。来源:数据观

发表评论
Powered By Google