第三部分-信息处理

第十章基础预测

我们将在本部分中处理一个关键问题：怎样有效地分析和处理这些信息。我们将通过两章向前（未来）看：描述将信息转化为阿尔法的方法。之后我们将向后（过去）看，讨论信息分析。本部分的最后一章将同时向前看和向后看，讨论信息时间尺度。

本章的主要真知如下：

·主动管理就是预测。 ·无条件预测或朴素预测（naive forecast）就是一致预期收益率。条件预测或信息下预测依赖于信息源。历史平均值是糟糕的无条件预测。 ·预测基本公式将朴素预测与信息下预测联系起来，并能够处理单个或多个信息源的情形。 ·精炼预测（refined forecast）具有“波动率·IC·标准分值”的形式。 ·收益率预测对风险预测的影响微乎其微。

10.1 精炼预测

朴素预测

朴素预测就是一致预期收益率。它是无信息（或未获信息）情形下的预测。朴素预测能推出基准持仓。

原始预测

本书用原始预测表示主动投资经理所获信息的原始形式，例如某种盈利估计、买入或卖出建议等都属于原始形式的信息。原始预测变量可以具有千差万别的单位和量级，它们不是对超常收益率的直接预测。

预测基本公式

$E\{r|g\}=E\{r\}+Cov\{r,g\}·Var^{-1} \{g\}·(g-E\{g\})$ 　（10-1）

式中:

$r$ ——超额收益率向量（N只资产）；
$g$ ——原始预测向量（K个预测）；
$E\{r\}$ ——朴素（一致）预测；
$E\{g\}$ ——原始预测变量的期望值；
$E\{r|g\}$ ——信息下预测：基于信息g的条件预期超额收益率。

式（10-1）的核心是将原始预测变量异于其期望值的部分与收益率的信息下预测异于其无条件期望值的部分联系起来。事实上，我们将定义预测修正量的概念，即信息g导致的预期收益率变动：

$\phi = E\{r|g\}-E\{r\}=Cov\{r,g\}·Var^{-1}\{g\}·(g-E\{g\})$ 　（10-2）

这正是前面章节中讨论过的超常收益率。它可以同时包含残差收益率预测以及基准择时。并且对给定的业绩基准组合B，朴素（一致）预测定义为：

$E\{r\}=\beta·\mu_B$ 　（10-3）

式（10-3）中的β是关于业绩基准组合的，μB是业绩基准的一致预期超额收益率。对主动投资经理而言，历史平均收益率是这些一致预期收益率的糟糕估计。

10.2 预测经验法则

精炼预测=波动率·IC·标准分值　（10-11）

Case: 一只资产一个预测

$\phi = Std\{r\} \cdot Corr\{r, g\} cdot (\frac{g - E\{g\}}{Std\{g\}})$

Case: 一只资产两个预测

$\phi=Std(r) \cdot IC_g^* \cdot z_g + std(r) \cdot IC_{g'}^* \cdot z_{g'}$

$IC_g^* = (IC_g - \rho_{g,g'}\cdot IC_{g'})/(1-\rho^2_{g,g'})$

$IC_{g'}^* = (IC_{g'} - \rho_{g,g'}\cdot IC_{g})/(1-\rho^2_{g,g'})$

10.3 高级技巧

时间序列分析

ARCH, GARCH

ARCH是自回归条件异方差（autoregressive conditional heteroskedasticity）的缩写，GARCH是广义ARCH（Generalized ARCH）的缩写。通常来讲，这类方法的目标是预测波动率（有时是相关系数）。这是Robert Engle开发出的技术。欲知它们在金融领域的应用，请参见Bollerslev，Chou和Kroner（1992）的文章。

ARCH和GARCH方法适用于波动率以某种可预测方式变化的情形，例如较高的波动率时段倾向于在较大的正向或负向收益率之后出现。波动率的标准GARCH模型具有以下结构：三种因子影响当期波动率。第一，即使不断变化的波动率也具有长期均值。第二，均值回复倾向于将当期波动率拉回到长期均值水平。第三，近期收益率可以推动当期波动率偏离长期均值。这都是时间序列中的基本概念，只是应用到波动率而非收益率上而已。

Kalman滤波

Kalman滤波与贝叶斯分析联系密切。我们的预测基本公式就是一个简单的例子。我们始于收益率均值和方差的先验估计，然后根据某些新信息调整该均值和方差。Kalman滤波以相同的方式运作，不过它们的工作流程常常被晦涩的电子工程/最优控制的术语所掩盖。

混沌

神经网络

遗传算法

遗传算法是一种试错式的最优化方法，源自对生物进化过程的模仿。物种根据“适者生存”的原则进化；每一代都通过交配、变异和训练的共同作用繁衍下一代。因此种群整体上将以一种半随机的方式向更高的适应性进化。

进化过程的计算机模拟是对一个多元函数的优化，其中自变量的每种组合都定义了一个“个体”，而目标函数（希望被最大化）则是对“适应性”的某种度量。

我们选择随机的初始“种群”，并评估其中每个个体的适应性，然后在适应性最高的个体之间进行基因重组（交配、变异），进而得到下一代个体。之后我们重复遗传进化（父代通过重组产生子代）这一步，直到收敛到一个最优解。在“遗传进化”这一步中，选用较强的随机性将导致较广的最优解搜索范围。事实上，我们可以随机组合具有较高适应性的个体或者随机改动个体的某些属性；这两种操作我们分别称之为“交配”和“变异”。

一个我们应用了遗传算法的领域是指数复制问题；例如，寻找最优的包含50只股票的组合来跟踪标普500指数。对给定的50只股票，标准的二次优化可以帮助我们找到跟踪标普500指数的最优组合权重。最困难的部分是如何遍历搜索50只股票的所有可能组合。组合数学理论告诉我们：不可能精确求解。

第十一章高级预测

上一章讨论的是一只资产的情况，这一章考虑多资产情况。

本章要点如下：

·单一资产方法同样适用于多资产情形。 ·当我们处理的是横截面而不是时间序列标准分值时，我们将会面临一些新的困难。在许多情形下，我们不需要在横截面标准分值上乘以波动率。 ·如果我们拥有信息并能够预测一些因子收益率，则不需将其他因子的收益率设为零。 ·IC的不确定性将导致阿尔法的衰减。我们从讨论多资产情形开始。

11.1 多资产情形

首先，我们必须指出，预测基本公式（式（10-1）），适用于多资产多信号的情形：

$E\{r|g\}=E\{r\}+Cov\{r,g\}·Var^{-1} \{g\}·(g-E\{g\})$ 　（11-1）

在式（11-1）中，r和g可以同时是向量。假设r是N维向量，g是K维向量，那么K/N就是平均每只资产的信号数。在一只资产一个信号的情形下，技术附录证明了预测基本公式对每一只资产n成立：

$\phi_n =\omega_n ·IC·z_{TS,n}$ 　（11-2）

其中我们假设了每只资产的预测信号具有相同的信息系数。

我们用下标“TS”（time series）来表示方程中的标准分值是时间序列维度上的标准分值。股票n的标准分值时间序列 ${z TS，n }$ 具有零均值和单位标准差。这是我们在第10章讨论的标准分值的定义。在之后的内容中，我们将把时间序列标准分值和横截面标准分值 $z_{CS，n}$ 进行对比。

不幸的是，式（11-2）并不能描述投资经理所面临的典型情况：在给定时刻，对每只股票有一个预测数值。我们没有N个标准分值的时间序列，我们只有一组横截面标准分值。横截面标准分值在任意时刻在N只股票上的平均值为0，标准差为1。我们想要时间序列标准分值，但我们只有横截面标准分值。我们该怎样处理？

时间序列标准分值：

$z_{TS,n}(t) = (g_n(t) - E_{TS}(g_n))/Std_{TS}(g_n)$

我们想知道这个，但是我们没有时间信息，也就是没有历史信息，但是我们有多只资产，因此我们考虑根据横截面样本 $g_n$ 来计算时间序列标准分值。我们定义横截面标准分值：

$z_{CS,n}=(g_n(t)-E_{CS}(g_n(t)))/Std_{CS}(g_n(t))$

我们假设了两种情况：

情形1：相同的时间序列信号波动率
情形2：时间序列信号波动率与资产波动率成比例

第一种情形，我们可以把不同的资产的横截面标准分值当作是时间标准分值来做，也就是对时间的分散和对面积的分散是等价的，这种情况下，结论是两个标准分值相等。

$z_{TS,n} = g_n / Std_{CS}(g_n)$

$\alpha_n = \omega_n \cdot IC \cdot z_{CS,n}$

第二种情形，我们可以把 $g_n$ 对面积的分散度理解为对时间分散度的加权和，因为每个资产的波动比例系数不同，因此权重不同，但是只要我们知道这个系数，就可以根据横截面标准分值算出时间标准分值，但是这个权重和这一篮子资产有关，当资产变动的时候，这个权重分布也会改变，需要重新计算

返回首页