塔勒布量化开篇之作《肥尾分布的统计效应》（下）-朱昂的财新博客-财新网

杰晶说：戴国晨是杰晶维基公益翻译计划的第一位志愿者，远在大洋彼岸，他已经利用闲暇时间翻译了十余篇重磅好文，同样为杰晶推荐了无数好文章，在此表示衷心感谢！

今天这篇文章来自塔勒布哲学理念的数量化版本Statistical Consequences of Fat Tails，全书400余页，由戴国晨研读后用可读性比较强的方式为大家进行细致讲解，戴国晨说：“整体读完对我帮助很大，结合之前听他上课时候的内容有豁然开朗的感觉，书里面包含了对肥尾分布不同角度的分析理解。我没有直接做翻译，而是采用笔记的形式。一来是塔勒布老师的文字本身比较晦涩，二是塔勒布老师在量化领域深耕多年，里面有一些数学炫技的成分，我尽可能的对内容做了一些简化。在术的层面上这是一本很有价值的书，通过里面的期权部分我大概能猜出Universa尾部对冲策略的超额收益来源···”

文章来源 | Statistical Consequences of Fat Tails

译者导读：真实世界中的随机性并非无迹可循，在日常经验中，人们发现幂律分布（帕累托分布）可以近似描述大量真实世界的现象，如市场波动，财富分配，流量效应，灾难损失等等。更准确的讲，这些随机事件的尾部都具备幂律特征，在对数坐标系下生存函数以直线形式下降。

这是极为神奇的现象，从标普500指数的尾部收益率到大型战争的极端伤亡人数，横跨不同领域的风险事件在肥尾的数学框架中得到了统一。二八定律周而复始的出现，映照出世界背后的底层逻辑：均衡不过是奢望，极端才是常态。

本书的下半部分就从实际肥尾分布出发，引出预测和赔付的关系，最终收尾于期权定价，构建了从现象到规律，思路到工具的闭环。

在标普500指数的收益率分布中，可以看到随着周期拉长，收益率峰度逐渐下降，呈现出缓慢的中心极限定理。这也是很多金融产品的共同特点：短期市场总是过度反应，收益率服从幂律尾分布，长期则回归理性，收益率逐渐向正态靠拢。这样的回报特点会给不同策略的鲁棒性带来巨大差异，价值投资聚焦长期，结果随着周期拉长变得愈发稳定，而市场上林林总总的短期策略则极大地暴露在尾部风险中。

在幂律尾分布下，历史极值或条件均值的风险视角有着巨大缺陷，尚未发生的尾部事件可能会极大的影响整体统计性质。因此任何短期策略想要长期存活，必须在极端条件下保护自身。随着市场不断发展，对尾部保护的需求逐渐演变为今天的期权合约，并发展出一系列量化定价方法。本书的期权部分主要从肥尾分布的角度切入，对合约的绝对和相对定价做出了思考。

读塔勒布之前看尾部风险，如同身处黑暗，满是难以量化的混沌与恐惧，读塔勒布之后看尾部风险，朦胧间已然瞥见一抹光亮，尽管依然无法看清风险的全貌，但是已经能够辨别可知与不可知，跳出被随机性愚弄的轮回。以上是一点个人感悟，也希望各位读者可以从中有所收获。

第六部分标普500分布

通过我们具备的各类工具，可以对美国标普500指数进行多角度统计分析。SP500作为金融市场中最重要的指数，其回报率的尾部满足幂律分布（存在一定不对称性），我们通过历史收益率关注如下几点：

累计峰度

SP500单日收益率呈现出很高的峰度，但是如果计算不同时间周期对数收益率的分布（日收益率的和分布），根据大数定律该分布应该趋向于高斯分布。但是通过从历史数据得到的峰度结果如下图所示：

因此我们可以认为收益率的肥尾来自数据内部结构，也就是波动率集聚现象。

最大回撤

下面是n=5, 30, 100和252天的回撤，通过log-log图可以看到回撤尾部满足帕累托分布。

Kappa值

条件期望

四阶矩不稳定性

下面的表格中展示了在SP500超过50年的历史中，单日回报率对峰度的最大贡献高达79%。这种超大单日极值贡献在其他金融资产中也很常见，比如原油（79%），白银（94%），其他商品和股票指数等。如此依赖极值也说明了金融资产回报率的峰度高度不稳定，甚至很可能并不存在。

极大值贡献图

从图中我们可以看出SP500收益率呈现出非常陡峭的幂律分布特征，对于三阶和四阶矩在50年（16000个数据点）范围的回测上依然显著不为0，因此不满足大数定律。

极值分析

在整个历史中，SP500的正收益极值突破了16次，负收益极值突破了9次。如果将收益率打乱重新进行极值分析，正负收益率突破次数的均值都在10次左右，此时代表肥尾之间无相关性。因此负收益率的尾部相对更加独立，而正收益率由于比理论值增长更快，说明尾部极值间存在一定的相关性。

第七部分预测与不确定性

肥尾分布下的决策

对于不确定条件下的决策，关键在于确定所面临概率与赔付的关系，其中赔付的重要性常常高于概率预测本身。在实际决策过程中，人们往往过度关注预测的正确与否，希望无限提高正确率，但是到头来却在赔付结果上吃了亏，形成决策上的巨大错配。本章中我们对预测和赔付之间的关系进行探讨。

首先我们要认识到：

人们的预测会包括各种各样的偏差，外界信息和心理作用都会极大影响预测能力，如果正确预测是很容易的事情我们就不会看到金融市场中的贪婪和恐惧，自然也不会有周期性。

成为预测大师并不一定能保证有好的表现，主要来自预测和赔付之间的非线性，一个预测大师可以99%的时间都正确，然后在1%的时候赔得底儿掉。

一个例子是老板问手下的交易员：你认为市场会上涨还是下跌？交易员信心满满的说会上涨，然后转头做空。老板非常生气，觉得受到了欺骗，因为他只能接受二元的状态：上涨做多，下跌做空，却无法理解大概率上涨对应“小幅上涨”而小概率下跌对应“大幅下跌”。交易员在这里锚定的是期望而不是预测。

从统计的角度讲，预测本身对应的是概率分布的零阶矩，而赔付往往是概率分布的一阶或高阶矩。

可能出现的概率和赔付关系：

二元预测和赔付，如赌博，彩票，选举结果，新药开发等，只有成功和失败两种结果。这时预测或者观点相当于一种投票机制，赔付和预测内在关联，如果两者脱钩则会出现无风险套利机会，如荷兰赌。

无边界赔付（包括无上界，无下界），如战争伤亡数字，市场崩盘损失，通胀程度，新产品销售和利润率，保险保障等。这样的非线性关系下会出现预测和结果方向相悖的现象，哪怕预测者只有小概率正确，由尾部带来的超大赔付可能依然划算，或者预测者绝大多数时候正确，但是可能会被尾部带来的超大损失击溃。

在金融衍生品中，上述赔付的典型例子分别为二元期权（0或1）和普通期权（单向无边界），如下图所示：

特征尺度

为了对冲尾部的风险，有人可能会问：在肥尾分布下，一个典型的或是常规的灾难赔付会有多大？实际上在无特征尺度的肥尾分布中，“典型”的尾部赔付很可能并不存在。为了区分随机变量的薄尾和肥尾，我们定义随机变量X分布的特征尺度如下：

在肥尾分布中，由于尺度不存在，不论K多大都依然会有更大的条件期望，也即风险之上还有风险，想要完全对冲尾部的风险就只有通过无边界赔付的产品，如期权。

上述定义也可以用条件赔付的形式表示，假设I为 K值以上的条件赔付，g(x)为赔付函数：

总的来说，概率只是积分内部的核函数，真实世界中重要的是赔付，也即概率事件对每个人的实际影响。金融领域风险管理的本质在于改变赔付关系，而不在于追求正确预测，因为在肥尾分布下你很难进行“正确量级的预测”。因此只要在赔付关系上有利于自身，哪怕降低预测精度也无妨。反过来说，预测准确率的提高如果对应赔付的大幅恶化，这样的准确并没有意义。如人们所说，同样是犯错误，把熊误认为是石头远远比把石头误认为是熊糟糕的多。

大选预测

上一节中我们谈到了二元预测，比如美国大选，总统在民主党和共和党候选人中二选一产生。在金融衍生品领域，二元期权的定价正是描述这样的过程。当选举不确定性大幅提升的时候，风险中性定价会将对应的期权价格推向50%，并且越接近到期越趋向50%。这一点和直觉相悖：当底层资产波动率提高的时候，期权的波动率反而降低了。通过借鉴二元期权的定价方法（鞅随机过程和无套利假设），我们可以更好的对大选结果进行建模预测，比如对于如下问题：

目前民调显示特朗普的支持率为30%，请问特朗普获胜的概率是多少？

绝大多数人都会预测是30%，但是其实30%并不准确。因为30%只考虑了最新的支持率，遗失了民调的波动率信息。事实上如果我们知道民调的波动率很大，民众忽而支持特朗普，忽而支持希拉里，这样的条件会降低现有民调结果的置信度，特朗普实际获胜的概率会高于30%。或从另一个角度出发，如果民调显示特朗普支持率为0%，因为潜在的不确定性，我们无法断定特朗普一定会落选，其获胜概率依然高于0%。

为了定量求解获胜概率，我们需要对期权定价做一些改进，因为期权标的资产收益率为无界变量，而这里大选投票为有界量，因此我们加入代表投票票数的随机变量Y，将满足布朗随机游走的无界变量X映射到Y上，并使得Y为鞅过程。在非线性变换下，此时的X不满足鞅过程。

可能有人会问为什么不通过直接假设变量Y为有界Beta分布的形式来求解。原因在于数学上目前无法通过有界分布逆推随机过程。采用影子随机变量巧妙的解决了这一点，方便以期权定价求解获胜概率，并可以延展到不同的时刻观察获胜概率变化。

由此构建下图所示的结构，其中B为二元选举结果，Y为投票数，X为定义在R上的影子变量（方便计算用）

有了这样的工具，我们可以通过不同时刻观测到的支持率推出真正的大选获胜概率（考虑获胜概率波动后），其无套利条件下的真实值会相对接近0.5，远远小于我们所看到的支持率波动。不过这里有一个很重要的假设是波动率保持不变，实际上随着大选的进行，有关候选人的信息逐渐披露，支持率的波动也将减小，真实世界的合理定价介于两者之间。

第八部分有界肥尾分布

有界帕累托分布

操作风险：公司操作风险的损失上界为全部市值，通过破产的方式截断

再保险保单：再保险的保单存在很大的保额上限

战争伤亡：上界为全球总人口数

信用风险：一笔贷款的损失上界为全部资本金

城市规模：城市人口的分布极度肥尾，上界也为全球（国家）总人口数

环境破坏：破坏的面积上界为地球总面积

公司盈利规模：一个公司的盈利上界为全球（国家）GDP

在面对这样的情况时，为了拟合并求解分布均值，目前有两种方法：

1）假设帕累托分布的尾部于H处截断，将超出部分的概率重新按比例加回到[L,H]区域

2）假设H处为帕累托尾部的吸收态，超出H的概率通过狄拉克函数的形式加到H点

这两种方式在计算时由于概率密度的跃变，并不适用于极值理论。这里提出第三种方式——通过无界的中间分布实现概率密度的连续，并求解条件均值。假设随机变量Z满足：

大规模战争和动乱的尾部概率

在人类历史上，战争和动乱是造成大量人员伤亡的主要因素。传统和战争相关的的统计分析主要聚焦于优化不完善和不可靠的数据集。这里开辟一个新的视角，通过极值理论观察历史上战争造成人员死亡的分布，并按照有界帕累托分布，通过截断尾部的形式估计伤亡均值，战乱事件发生的周期和相关性。通过该研究尝试回答一个问题：随着历史的发展，战乱的发生概率或伤亡规模是否有降低的趋势？

在研究中，我们主要着眼于造成五万人以上死亡的战乱事件（按今天的人口规模估算，在18世纪约等于五千人），通过统计分析可以得到以下结论：

战乱的风险并没有降低，在伤亡方面以分布估算的均值高于历史均值，我们有可能低估了未来战争的危险性

战乱的周期符合无记忆性的到达模型，并没有随着历史发展降低频率

由于全球人口随着时间不断增长，为了保证可比性我们分别对原始数据和尺度重整数据做统计研究，其结论并无很大不同。在战乱事件的定义上，由于“战乱”概念本身比较模糊，不同类型的战乱可能在同一时期重叠，也可能一个战乱横跨几个时期，伴随着饥荒瘟疫等因素。我们这里将超过25年的战乱拆解开来，比如蒙古当年在亚欧大陆的入侵，持续了125年以上，在多个地方有着不同的记载，因此被拆解为了12到55个不同的事件。原始数据中最大的死亡人数出现在二战时期（7000万-8000万），而尺度调整后死亡人数最大的是中国唐朝的安史之乱（历史死亡人数1000万-2000万）。

另外，对已发生战乱的分布进行统计存在生存偏差，我们得以生存的前提是尚未发生过毁灭整个人类的超大型战乱，随着人类掌握核武器等破坏性科技，这一极端风险也日益升高。

2）战乱发生周期满足齐次泊松过程，并无记忆性，也即无法证明随着历史的发展全球已经变得更加和平

检验齐次泊松过程可以通过POT方法，观察战乱到达时间是否满足指数分布，且发生时间之间不存在自相关性。

下表为超过1,2,5,10（百万）死亡人数的战乱的平均发生时间和平均偏差（基于原始数据）

可以看到如果采用原始数据，一千万人以上死亡的大型战争平均周期为101年，而偏差可以达到144年，因此在二战以来短短不到100年的今天，我们并没有办法在统计上说明目前的世界已经进入长期和平的状态。

3）通过分布拟合，如果未来发生大规模战争，虽然伤亡数字高度不确定，但拟合分布均值约为3倍历史均值，历史均值的视角大大低估了可能的伤亡

大规模战争是高度不确定的尾部事件，基于上述数千年的历史统计研究，我们虽然无法预知第三次世界大战是否会发生，何时发生，或是会产生多少伤亡，但是至少从统计上可以认为其发生的风险并未降低。如果未来全球能继续延续百年以上的和平，才会在尺度上影响到上述统计结论，证明我们进入了一个更为安全的历史时期。

第九部分肥尾条件下的期权定价

期权是非线性的金融衍生产品，早在十七世纪的荷兰就已经出现，当时著名商人和哲学家Joseph De La Vega曾描述过为期权定价和管理风险敞口的技巧。之后于1900年的法国，Louis Bachelier以数学模型确定了价格来自于最终赔付的期望，该方法并不限制标的资产的分布（甚至优于BSM模型）。后来更为人们所熟知的是Black-Scholes-Merton模型（BSM），使得连续时间下期权和标的资产的动态对冲组合满足风险中性条件，并加入了收益率正态分布的假设。期权定价模型的优点在于将不确定的价格变化转化为与资产价格关联的确定性赔付，因此期权不属于单独的资产类别，也不存在CAPM理论下的风险溢价。

但是在现实金融市场中，BSM模型里面几个重要的潜在假设难以实现，比如假定无交易摩擦成本，无市场冲击影响，和最重要的无价格跳跃。虽然学界在后续的衍生定价模型上对于上述假设进行了改进，但还是不能很好的适用真实市场。因为只有连续交易才能满足时刻变化的Delta条件，而在收益率呈现出幂律尾分布的市场中，任何想要以动态对冲的方式复制期权收益流的行为都会面临高昂的误差成本。下图中左为Black-Scholes世界中的动态对冲误差，而右为真实的动态对冲误差。对于套利组合来说，出现在1987年市场崩盘期间的巨大误差很可能是灾难性的。因此在肥尾条件下动态对冲无法有效降低组合的风险。

虽然依赖动态对冲对期权定价的方式有重大缺陷，但是由于看涨看跌期权可以复制出远期合约，期权平价理论的适用范围可以超出BSM的假设，不论标的远期价格满足风险中性测度与否，看涨和看跌期权都至少存在一定的对应关系。对于任意的行权价K和测度Q，我们都有：

如果对于不同的行权价K其平价定价出现偏差，就可以通过构建组合的模式进行多空套利，这种套利不需要面对BSM模型中的动态对冲误差问题，因此更为实用。

对期权的一些认知误区

混淆肥尾程度（四阶矩或高阶矩）和波动率（二阶矩）

很多交易者选用VIX指数来押注极端尾部事件，但是VIX本身是由平值期权求得的，更贴近波动（二阶矩）而非峰度（四阶矩）。正确押注肥尾的方式是卖出平值期权买入尾部的虚值期权，以二阶矩中性的方式单独做多四阶矩，押注波动率偏斜的增强。

计算期权回报时忽略了非线性

对于押注风险事件的波动率策略，其回报和风险变动呈现出高度非线性关系，只看VIX来计算尾部期权的回报是错误的。假设VIX为10%时买入对应的期权，当VIX上涨4%时，对应的平值期权价格会上涨15%，而一个5倍标准差的价外期权会上涨4倍，10倍标准差的价外期权则会上涨144倍。

只看期权成本而忽略保护价值

单独购买期权如同购买保险，期权的价值只有在和标的资产组合的时候才能进行客观衡量。一个合理的方式是通过计算持有标的+长期购买少量尾部期权的收益与风险。对冲基金Universa正是基于这一策略的长期正收益建立。

话题：