没有人能够掌握和分析来自于未来的资料。不过,有一种方法可以使用过去的资料来预测未来。这种方法称为「预测分析」(predictive analytics),而每一天都有组织在运用这种方法。
举例来说,你的公司是否发展了「客户终生价值」(customer lifetime value (CLTV) )的衡量标准?那便是运用「预测分析」来决定,长期而言,客户会跟公司购买多少金额。你的公司拥有「次佳提案」(next best offer)或是产品建议的能力吗?其实那就是分析预测你的客户,接下来最有可能会购买的产品或服务。你预测过下一季的销售额吗?使用过数字营销模型,决定该把哪一则广告放在那一家出版商的网页上吗?所有的这些事项都是各式各样「预测分析」的不同形式。
近来,「预测分析」变得愈来愈受欢迎,可是身为经理人而非分析师的你究竟应该知道哪些事情,以便能够诠释结果、做出更好的决定呢?你的数据科学家的工作究竟做得如何?透过理解一些基础的事实,当你跟组织里的其他人合作与沟通「预测分析」的结果和建议时,你就会觉得更加地自在。量化分析(quantitative analysis)并不是神奇的解决方案──可是这一项分析通常都是倚赖大量的历史资料、一些统计上的杰出才能,再加上一些重要的假设所完成的。接下来,我们就来逐一讨论每一项。
资料:对于想要运用「预测分析」的组织来说,缺乏好的数据是最常见的障碍。举例来说,如果你想要预测客户未来会购买哪些东西,你便需要有下列的相关优质数据,包括了:他们在跟谁购买(这可能会需要一套客户忠诚方案(loyalty program),或者至少针对他们的信用卡做大量的分析),他们过去买了哪些东西,那些产品的特性为何(相较于「购买了这项商品的人,也购买了这一项商品」这一类的模型,以特性为基础的预测通常都更为准确),或许还有客户的某些人口特性为何(年龄、性别、居住地点、社经地位等)。如果你拥有多元的销售管道或是「客户接触点」(customer touchpoints),你就需要确定这些管道能够掌握住客户购买的数据,跟你之前的管道掌握的方式一样。
总而言之,想要打造一套单一的客户数据库,拥有每位客户的「独特身份识别」(unique customer IDs),以及客户透过所有的管道所完成的所有购物历史,会是一项相当艰难的工作。如果你已经做到了这一点,那你就获得了针对客户进行预测分析、一项令人难以置信的资产。
统计:各种不同型式的「回归分析」(Regression analysis)是组织使用来做「预测分析」的主要工具。这套方法大致上的运作方式如下:分析师先提出假设,认为一组独立变量(比方说:性别、收入、造访网页的次数等)跟一群客户样本购买某项产品之间,在统计上有相关性(statistically correlated)。分析师会进行回归分析,检视每一项变量的相关程度;这通常需要重复尝试,以便找出变量和最佳模型的正确组合。如果分析师成功地发现,模型当中的每一项变量,对于解释产品购买都很重要,而且这些变量合在一起能够解释产品销售的许多变异。运用这个回归方程式,接下来分析师便可以使用「回归系数」(regression coefficients)──每一项变量影响购买行为的个别程度──来创造一个分数,预测购买的可能性。
你瞧!你帮不在样本里的其他客户,创造了一套预测模型。你需要做的就是计算他们的分数,如果他们的分数超过某个特定水平,便把产品提供给他们。分数高的客户相当有可能会想要购买这项产品──假设分析师把统计工作做的很好,数据的质量也很好的话。
假设:这一点为我们带来任何预测模型中的另一项重要因素──构成模型基础的重要假设。每一项模型都有假设,重要的是要知道假设为何,并且监测假设是否仍然正确。「预测分析」里的重大假设就是,未来会持续像过去一样。如同查尔斯‧杜希格(Charles Duhigg)在他的著作《为什么我们这样生活,那样工作?》(The Power of Habit)中所描述的,人们会建立根深柢固的行为模式,假以时日之后,通常还会持续维持下去。不过,有时候他们会改变那些行为,这个时候用来预测那些行为的模型便可能不再正确。
哪些因素会让假设变得不再正确呢?最通常的原因就是时间。如果你的模型是好几年前就打造好的,便有可能不再能够准确预测目前的行为。时间过去的愈久,客户的行为就愈有可能已经有所改变。举例来说,某些Netflix的预测模型是根据早期因特网的用户所打造的,因为之后的因特网用户基本上并不一样,这些模型便不再适用。第一批因特网的用户比较聚焦在技术层面上,而且相对比较年轻;后来的用户基本上就涵盖了所有人。
预测模型的假设可能不再正确的另一个原因是:如果分析师没有把一项重要变量包括在模型里,而且那项变量已经随着时间有相当大的改变。一个极为贴切、同时也令人毛骨悚然的例子,就是2008年到2009年的金融危机,主要的起因就是模型没有正确预测到,房贷客户可能会如何偿还他们的贷款。那些模型并没有考虑到房价可能会不再上扬,甚至可能会下跌的可能性。当房价真的开始下跌时,后来这些模型预测偿还房贷的能力就变得相当地糟。从本质上来说,房价会一直上涨的事实就是这些模型当中隐藏的假设。
由于错误或过时的假设显而易见地会让整家银行、甚至(几乎)整个经济体倒闭,审慎仔细地检查这些假设就相当地重要。经理人应该总是询问分析师,哪些是重要的假设,哪些事情的发生会让假设不再正确。而经理人跟分析师都应该持续监看世界局势的变化,以便观察假设里的重要因素是否可能已经随着时间有所改变。
有了这些基础理解之后,下列这几个好问题可以拿来询问你的分析师:
你可以告诉我,你使用在你分析里的数据源吗?
你确定样本数据能代表母体吗?
你资料的分布上有任何的异常值(outliers)吗?这些数值会如何影响结果呢?
你分析的背后有哪些假设?
有任何情况会让你的假设变得不正确吗?
即便有那些需要注意的警告事项,我们可以使用分析技术来预测未来这一件事情,还是相当地让人觉得难以置信。我们需要做的事情就是搜集正确的数据数据,发展正确型态的统计模型,然后对我们的假设抱持审慎的态度。相较于深夜电视预言家「令人叹为观止的卡纳克」(Carnac the Magnificent)所创造的东西,要创造出「分析预测术」可能会更为困难,可是它们通常都更为准确的多。