「大数据」与「数据分析」两者是相关的:一如数据分析,大数据运动也尝试从数据中萃取有用的信息,藉此创造企业的竞争优势。
但大数据与一般数据分析,有三个关键差别:
差别1:资料量。在2012年,世界每天产生的数据量约为2.5 exabyte(EB),而这个数字,会在每四十个月左右增加一倍。因特网每秒流传的数据量,比二十年前整个因特网储存的数据还多。企业因此有机会分析大量数据,一个数据集就可能有许多个petabyte(PB)的数据,而且数据源并非只有网络。
差别2:速度。就许多数据应用而言,数据产生的速度,甚至比数据量更重要。实时或近乎实时的信息,让一家公司得以比竞争对手灵敏得多。这种实时信息,可带给华尔街分析师与企业经理人明显的竞争优势。
差别3:种类。大数据的种类多样,可以是贴在社交网络上的信息、状态更新及图片;传感器的读数;手机的全球卫星定位系统(GPS)讯号等等。大数据的重要数据源,有很多是新事物。同时,储存、记忆、处理、带宽等资料运算的所有要素,成本不断下降,以前成本昂贵的数据密集型模式,如今正迅速变得符合成本效益。随着越来越多商业活动数字化,新的数据源,加上越来越便宜的设备,带领我们进入一个新时代:几乎所有与业务相关的议题,都有大量的数字信息。手机、网络购物、社交网络、电子通讯、GPS及各种仪表机械,都是在日常运作中产生大量数据。如今人人都是活动的数据产生器。这种数据往往是未结构化的,也就是说,并不是有条理地储存在数据库中,因此不便使用。但杂乱的资料中,有大量有意义的讯息等着被发现。数据分析带来严谨的决策技术,适当应用可让巨量数据变得简单得多,并发挥强大的力量。