在我写这篇文章的时候,我们都在努力实现COVID-19全球疫情的“拉平曲线”。
好消息是:许多非常聪明的人已经创建了许多预测分析模型来帮助我们管理疫情。我们大多数人都比在COVID-19之前更频繁地接触到这些预测分析。
坏消息是:这些模型中的许多模型使用不同的输入、不同的启发算法,并得出(有些是轻微的、有些是显着的)不同的结论。
这些模型的差异让人想起启发标题的格言,通常归因于统计学家乔治·博克斯。那里有很多智慧,所以让我们解开它。
“我有一张美国地图.……是实际大小。上面写着:‘比例尺:1英里=1英里’。去年夏天我花了很长时间折叠它。我几乎从不展开它。人们问我住在哪里,我说:‘E6’。”——史蒂文·赖特
每个人都明白“地图不是实际领土面积”。同样,分析不是数据——分析模型需要最佳可用数据(就像地图一样),但从数据到分析的路径是一个有损的过程。
模型也像地图一样,因为有很多类型。不同类型的分析模型可以应用于相同的源数据,每个模型都可以提供不同类型的见解,有助于发现更大的“真相”,可用于帮助提高达到预期结果的机会。
地铁地图就是一个很好的例子。它们通常与系统的实际几何形状截然不同,如(1)巴黎地铁系统的地图和(2)系统的真实几何图形之间的动画变形所示。
重要的是,地铁地图的近似值增加了清晰度,并以几何地图所没有的方式揭示了系统的内在逻辑。
举个简单的例子,考虑视频广告的“观看次数”计数,这是一个看似简单的指标,用作许多分析模型的输入。我们是否只在整个广告播放时才将其视为观看次数?或者它必须播放最短的时间,或者广告持续时间的最小百分比?在此期间,视频广告的每个像素都必须在100%的时间内处于视图中吗?
有趣的是,即使在这个非常简单的指标的情况下,也没有通用的标准。如果一个不可跳过的广告播放了30秒,YouTube就会将广告算作“已观看”,而Facebook则很乐意将3秒的播放时间计为一次观看。LinkedIn将其降低到两秒,并且只需要50%的视频在可视范围内即可。
数据科学的一个关键方面是试图理解数据、过程和所使用的算法可能做出的隐式假设。这通常很困难,因为可能很难(有时不可能)确定AI算法如何得出结果。
例如,AI算法可以在数十年的数据上进行训练。如果数据本身有偏差,那么使用该数据的AI算法也将有偏差。众所周知,亚马逊出售给警察部门的人脸识别系统误将28名国会议员与犯罪分子面部照片相匹配,其中大部分是与有色人种国会议员相匹配。
模型通常产生确切的数字,而不是四舍五入的数字。问题在于,我们寻求模式的大脑将这些确切的数字解释为比四舍五入的数字“更权威”,尽管两者都是估计值。
因此,请注意确切的数字。作为读者,提醒自己,任何代表尚未发生的事情的数字都是估计值。作为模型创建者,帮助那些将使用分析模型输出的人理解,尽管模型的输出可能看起来很精确,但这仍是一个猜测因此肯定是错误的(但希望足够正确且有用)。
几个月前,我们因COVID-19而做出的社会变化是大多数人无法想象的。虽然较大的公司(包括Teradata)有应对疫情的方案,但疫情一直是分析模型中明确和隐含假设的试金石。
许多模型通过远见和(有时)运气继续“勉强工作”。许多干脆就崩溃了,导致了我们在2020年初看到的一些暂时的运营混乱。
然而,分析模型非常有用和重要,是从“数据”到“洞察力”的主要工具。分析模型让我们的客户可以从令人难以置信的数据量中提取价值,并将这些数据转化为可操作的业务实践,获得他们想要的结果 。
好消息是:许多非常聪明的人已经创建了许多预测分析模型来帮助我们管理疫情。我们大多数人都比在COVID-19之前更频繁地接触到这些预测分析。
坏消息是:这些模型中的许多模型使用不同的输入、不同的启发算法,并得出(有些是轻微的、有些是显着的)不同的结论。
这些模型的差异让人想起启发标题的格言,通常归因于统计学家乔治·博克斯。那里有很多智慧,所以让我们解开它。
我们所说的“错误的”是什么意思?
分析模型是“错误的”,就像地图是“错误的”一样,也就是说,它们是出于必要考虑,经过简化和理想化的。“我有一张美国地图.……是实际大小。上面写着:‘比例尺:1英里=1英里’。去年夏天我花了很长时间折叠它。我几乎从不展开它。人们问我住在哪里,我说:‘E6’。”——史蒂文·赖特
每个人都明白“地图不是实际领土面积”。同样,分析不是数据——分析模型需要最佳可用数据(就像地图一样),但从数据到分析的路径是一个有损的过程。
模型也像地图一样,因为有很多类型。不同类型的分析模型可以应用于相同的源数据,每个模型都可以提供不同类型的见解,有助于发现更大的“真相”,可用于帮助提高达到预期结果的机会。
错误的也可以是好的
将模型简化和理想化视为捷径可能很诱人。但是,有时它对于可用性和决策是必要的。地铁地图就是一个很好的例子。它们通常与系统的实际几何形状截然不同,如(1)巴黎地铁系统的地图和(2)系统的真实几何图形之间的动画变形所示。
重要的是,地铁地图的近似值增加了清晰度,并以几何地图所没有的方式揭示了系统的内在逻辑。
所有模型均为近似值
为了从数据到分析,模型必须做出假设。这意味着所有分析,或多或少,都是近似值。“这使得所有分析,或多或少,都是近似值。”
明确的假设
有些假设是明确的,这意味着人类在创建分析的过程中做出了决策。举个简单的例子,考虑视频广告的“观看次数”计数,这是一个看似简单的指标,用作许多分析模型的输入。我们是否只在整个广告播放时才将其视为观看次数?或者它必须播放最短的时间,或者广告持续时间的最小百分比?在此期间,视频广告的每个像素都必须在100%的时间内处于视图中吗?
有趣的是,即使在这个非常简单的指标的情况下,也没有通用的标准。如果一个不可跳过的广告播放了30秒,YouTube就会将广告算作“已观看”,而Facebook则很乐意将3秒的播放时间计为一次观看。LinkedIn将其降低到两秒,并且只需要50%的视频在可视范围内即可。
隐含假设
其他假设是隐含的,这意味着它们没有被表达出来,甚至可能不知道。它们可能是所用算法的副作用,甚至是AI算法使用的数据的副作用。数据科学的一个关键方面是试图理解数据、过程和所使用的算法可能做出的隐式假设。这通常很困难,因为可能很难(有时不可能)确定AI算法如何得出结果。
例如,AI算法可以在数十年的数据上进行训练。如果数据本身有偏差,那么使用该数据的AI算法也将有偏差。众所周知,亚马逊出售给警察部门的人脸识别系统误将28名国会议员与犯罪分子面部照片相匹配,其中大部分是与有色人种国会议员相匹配。
精确数字的错误权威
根据2015年对并购的一项研究,为公司股票提供“精确”出价的投资者比提供整数出价的投资者产生更好的市场结果。模型通常产生确切的数字,而不是四舍五入的数字。问题在于,我们寻求模式的大脑将这些确切的数字解释为比四舍五入的数字“更权威”,尽管两者都是估计值。
因此,请注意确切的数字。作为读者,提醒自己,任何代表尚未发生的事情的数字都是估计值。作为模型创建者,帮助那些将使用分析模型输出的人理解,尽管模型的输出可能看起来很精确,但这仍是一个猜测因此肯定是错误的(但希望足够正确且有用)。
假设和“黑天鹅”事件
黑天鹅事件是一个难以预测的事件,这意味着“正常”不再是正常的。在我写这篇文章的时候,最近的一个例子是正在进行的2019-2020冠状病毒大流行。几个月前,我们因COVID-19而做出的社会变化是大多数人无法想象的。虽然较大的公司(包括Teradata)有应对疫情的方案,但疫情一直是分析模型中明确和隐含假设的试金石。
许多模型通过远见和(有时)运气继续“勉强工作”。许多干脆就崩溃了,导致了我们在2020年初看到的一些暂时的运营混乱。
模型很有用
是的,它们并不完美。模型是近似值,依赖于隐式和显式假设。重要的是永远不要忘记所有模型都是“错误的”——但这不仅是可以的,而且是可取的。然而,分析模型非常有用和重要,是从“数据”到“洞察力”的主要工具。分析模型让我们的客户可以从令人难以置信的数据量中提取价值,并将这些数据转化为可操作的业务实践,获得他们想要的结果 。
了解有关Teradata Vantage的更多信息
探索Vantage随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解