随着各企业组织收集越来越庞大而多样的数据集,对技术优良的数据科学家的需求将持续升高。《哈佛商业评论》将这种工作称为「21世纪最诱人的职位空缺」。
可惜,这个职务的日常实际状况,并不符合经过浪漫美化的说法。
从2012年起,我的同事和我开始仔细检视数据科学家的亲身经验。在斯坦福大学,我对25家企业的数据分析师进行35次访谈,这些企业涵盖各种行业,包括医疗保健、零售、营销和金融。之后,我又和另外200-300位分析师谈话。我们发现,这些分析师的时间大多花在运用各种方式来处理数据,包括探索数据、架构数据,以及建立数据环境。
换句话说,他们的时间大多花在把数据转化为可用形式,而非寻找数据蕴含的意义。
没错,这起源于分析法的正向改变。尽管企业曾经紧密掌控数据仓储,但它们现在转向较为灵活的分析环境,因为企业渴望采取数据导向的决策方式,因此需要不同类型的工作。如今,数据质量不再是一项根本的事实,而是取决于分析工作的目标。探索式分析法和可视化,都要求分析师动态存取不同形式的不同数据源。
问题在于,大部分组织不是为了这个目的而设立。在传统的数据仓储环境中,当数据被加载仓储时,信息科技团队会架构数据和设计纲要,然后主要负责确保严守的数据质量规则。虽然这种预先设计和架构很昂贵,但多年来一直运作得相当好。不过,随着企业处理的数据集越来越庞大和复杂,这种管理数据的旧方式并不实际。
为跟上脚步,大部分企业组织目前会视需要来储存原始数据和设计架构,在使用数据时、而非加载数据时,才设计纲要和不同数据集之间的关系。这种变动,不仅让数据分析师拥有更大的弹性,来寻找非预期的见解,同时也将耗费时间的探索、架构和整理的责任,完全放在数据分析师身上。
我们在2012年对数据分析师所作的研究调查中,将数据科学的流程分为五个高端工作:探索、争论、描绘概况、建立模型和产生报告。大部分的分析和可视化工具,都把焦点放在这个工作流程的最后两个阶段。可惜,大部分数据分析师的时间都花在前三个阶段。
前三个阶段的工作包括:寻找与特定分析工作相关的数据、格式化和验证数据以符合数据库和可视化工具的需求、判断数据是否有质量问题,以及了解数据中各种不同领域的特性。在这些阶段,数据科学家会遇到许多挑战,例如,有些数据集可能会有遗漏和错误的值,或是有极端值。这些工作往往需要以Python和Perl等「脚本」程序语言,来撰写不同寻常的程序,或是使用微软Excel等工具进行广泛的手动编辑。但如果没有发现数据有问题,这可能造成之前所作的假设是错误的或误导的;有40%的业务计划未能达到目标成效,主要原因就是数据质量不佳。
因此,杰出数据科学家的技能通常都浪费掉了,因为他们忙于从事低阶的数据整理工作,或者当他们无法快速存取自己需要的数据时,他们也无法好好发挥才能。这造成重大的瓶颈,当数据从 Hadoop等数据储存库,转移到能产生更好见解的分析工具时,拖慢了数据流动的速度。在数据仓储和分析项目中,数据整理和准备工作,可能要花50-80%的开发时间和成本。
企业没有解决这些问题,反而经常扩大需要数据科学家注意的数据量。通过活动和系统日志、第三方应用程序编程接口和供货商、其他可公开取得的数据,企业能够取得越来越庞大和多样的数据源。但若没有设立适当的系统,操控处理数据所导致的超高成本,将会让大部分数据静静躺在「数据湖」中,无法使用。
此外,若是让数据分析成为许多部门的核心业务功能,技能良好的分析师和信息人员就无法进行分析工作,而必须把大半的时间,用来协助其他人通过低阶程序设计去取得他们需要的数据。
根据研究暨顾问机构顾能公司(Gartner),在2014年,有64%的大型企业准备实施大数据项目,但85%的《财星》杂志五百大企业将无法成功实施。罪魁祸首应该是这些耗时的数据准备作业。它们不仅束缚了数据科学家,让他们无法充分发挥,而且大幅降低大数据计划成功的机率。
如果我们期望充分运用大数据,就需要提升数据准备作业,摆脱目前构成整个流程的手动、累赘作业。数据科学家必须能够更灵活地转换数据,而不只是手动准备数据以便进行分析。各领域的专家必须要能够探索不同数据集之间的更深刻关系,而不是让程序设计师或数据分析师长时间参与,结果稀释了数据。
最后一点是,分析数据的目标不只是取得见解,还有改进业务流程。成功的分析可以促成产品和营运的进步,为组织带来价值,但前提是,负责处理数据的人员要能花更多时间寻找见解。如果我们希望数据分析扩展的速度,能像储存和处理数据的技术进展的那么快,就必须要让数据科学家的生活变得更加有趣。