近期看到纽约大学教授盖瑞·马库斯一个观点,从科学方法角度提醒政府、社会以及科学研究者对别对大数据迷恋,引人深思。

延伸一下,这位教授既做科研,也做企业。最近有本翻译的新书《如何创造可信的AI》,陆奇作序,可读性高。也是他写的。

好了,回到主题,盖瑞·马库斯表述的观点大致是这样:

并非是我们不应该相信大数据,或收集大数据,而是不应该把它当成魔法。虽然几乎所有领域都受益于精心收集的大型数据集,但太多人、甚至是科学家,都过分依赖大数据。从物理学到神经科学,比如最近关于了解科学的讨论看起来有一半涉及大数据以及相关工具,比如“维数约简”、“神经网络”、“机器学习算法”和“信息可视化”等。

但是,科学从根本上依然围绕宇宙规律的探索,而大数据并不擅长的一件事就是发现定律。它善于检测相关性,数据集越可靠,发现其相关性的可能性就越高,即使是涉及多个变量的复杂数据。但相关性从来都不是一种因果关系,以后也不会是。世界上所有的大数据都不会告诉你,吸烟是否会导致肺癌,你必须做实验,了解致癌物、致癌基因和 DNA 复制等专业词汇的固有含义。仅将世界各个城市烟民和非烟民海量数据库制成表格,记录他们何时、何地抽烟,寿命以及死因的细节,这些数据无论包含多少兆字节,都不足以涵盖生物机制的多重复杂性。

神经科学某些分支的专家已经持如下态度——“建好大数据,结果自然就明了了。”他们认为一旦拥有足够的数据,神经科学问题就能迎刃而解。然而,这种想法并不正确。如果我们的猜想有理有据,那么可以用大数据测试一下,但它绝不该是我们的第一选择。

并且在最后说明:只有我们知道自己在寻找什么的时候,才应该向大数据寻求帮助

作为从业者,说说我的理解。

大数据从来不是一件事情、任务的起因。所有项目立项核心考虑:用户场景、行业情况、项目资源。数据分析是作为工具,辅助决策。和项目是依附关系,不是因果关系。

另外,大数据意味着事情已经发生,在商业世界,对已经发生的事精做过多分析会造成徒劳无功。比如说:在线教育、SaaS 行业的用户流失分析。对流失用户精细分析,对召回流失用户可能性不大。大数据可以预测用户流失情况,但这只是提前知晓,要改变流失情况还是需要更多产品运营动作干预。在这个维度下,拥有大数据能力,主要做的是「观察」。

在一些情况下,数据结论越明显,反而错的越明显。最近在看电商订单情况,就以淘宝待付款订单状态举例。

下图是淘宝待付款订单,进行订单取消操作的具体选项。流程是:待付款订单 – 取消订单 – 选择取消订单原因(默认「价格有点贵」选项)– 确定取消。这个功能初衷,应该是淘宝/商家都希望通过这些选项,了解消费者取消订单的真实意图。根据原因占比来优化流程。

image.png

但整个流程走下来就能得知,目前设定下,一定是「价格有点贵」占比最高,因为这是默认选项。多数消费者行为应该是直接点击“确定取消”按钮。这里有两点:

第一,「价格有点贵」这个选项,即使占比最高,我想淘宝的数据分析师也会将这个选项剔除,因为无意义;至于为什么要默认选「价格有点贵」,我想正是因为“价格有点贵”无意义,因为价格的预期,每位消费者都不一样。并且,消费者肯定是希望越低越好。

第二,如果这个环节优化为:去掉「价格有点贵」选项,并且不默认选中任何选项,会不会更好?得到这个结论就需要从用户体验指标和获取订单取消原因有效率来衡量了。这是另一个话题。

回到这个案例,占比最高的数据并不能说明问题,还有可能形成错误引导。数据之所以呈现成这样,是因为产品设计是这样,而不是用户想这样

所以,我理解盖瑞·马库斯说的“只有我们知道自己在寻找什么的时候,才应该向大数据寻求帮助。”是要先有定性判断、想法,再以大数据作为辅助。才能不偏不倚。