Skip to content

Latest commit

 

History

History
156 lines (104 loc) · 12.4 KB

basic.md

File metadata and controls

156 lines (104 loc) · 12.4 KB

前言

多因子模型是量化的一个核心概念,

基本概念

因子、因子收益率、因子暴露

这些概念,讲的最好的还是石川老师的那本《因子投资方法与实践》,夸他,不是因为他写的好,而是,写的比别人好。他写的其实也一样,比较晦涩,但是,至少静下来心来看,是可以捋清楚,至于别人的,呵呵了就。

这里我抛开各种基础引子,直奔主题,不是给新手看的,谅解。建议对着石川老师的书对照看和理解。

P34页的$$E(R_i^e) = \alpha_i + \beta_i ' \lambda$$

解释一圈:

  • $$R_i^e$$,是说第i只股票的收益,是可以被上式解释的
  • $$\beta_i$$是股票i的K维引子暴露向量,讲人话,你别K维减少1维度(也就是1个因子),那这玩意就是一个数,但是,你注意,它有个下标i,对,他指的就是这只股票的因子暴露,就是咱们天天挂嘴边的因子,比如市值因子,就是招商银行的因子暴露(当然是某一天的)。’是转置。
  • $$\lambda$$,这个,就是因子收益了,他说是K维,你也简化为1维(1个因子)就好理解了

所以,上式,就是你最常用的那个回归,就是你知道了这只股票的收益$$R_i^e$$,然后,你还知道了他的因子暴露$$\beta_i$$,然后你可以通过回归去求出未知的$$\alpha_i$$和因子当期收益率$$\lambda$$。

这个是描述了1个股票的1个时间点($$y=E(R_i^e),x=\beta_i$$),但是,你肯定没法做回归啊,你至少需要一堆的点,才能做回归,做最小二乘法。

那一堆点,就是把$$i$$,从1个,变成50个,从1只股票,变成50只,100只,甚至3000只,这样,就可以回归出来了,对吧?

这里,再强行插入解释,你用50只的因子$$x=\beta_i$$和股票收益$$y=E(R_i^e)$$,回归出来了因子收益率$$\lambda$$和$$\alpha$$,你只是回归出来了1个时间点的。你还可以再往下一期,又可以回归出来下一个时间点的,所以这些回归出来的$$\lambda$$,就组成了一个跟股票们同步的时间序列,即,因子收益率的时间序列,这个时候,你最好管他们叫$$\lambda_t$$。

时间序列回归

好,下面我们接着上面的,说回归,说最小二乘,那么,就需要应用P36的式子 $$R_{it}^e= \alpha_i + \beta_{i} ' \lambda_t$$

我这里必须要自我检讨一下,

我开始以为,用因子值,去,截面回归,股票收益率,比如我有50只股票,他们的市值大小就是他们的市值因子,我管这个市值因子叫因子暴露, 有了因子暴露,我就用他按照上式,去回归,$$x=\beta_{i}$$,$$y=R_{it}^e$$,我回归,就可以得到因子的收益率,即$$\lambda_t$$。 听上去很完美,但是,我有一点说服不了自己,就是,石川的给出的上式中,即p37页上半部分,说

在时间序列回归中,回归方程右侧的自变量是因子收益率$$\lambda_t$$,左侧的因变量是$$R_{it}^e$$,回归得到了资产$$i$$在因子上的暴露$$\hat{\beta_i}$$向量。

纳尼?!不对啊!市值就是这个变量的因子暴露$$\beta_{i}$$,它就是已知值,而因子收益率$$\lambda_t$$是我要回归求的啊,是未知的啊?!我理解错了么?

事实是,我确实理解错了,彻彻底底的错了,非常之惭愧,学业不精啊。

我又回到了P27页,再次回顾,什么是因子收益率,27页的例子,以价值因子为例,描绘了什么是因子收益率。

我们一起读读这段:

通过做多BM最高的一组(即High组)、做空BM最低的一组(即Low组)构建兼职因子投资组合,给出了对价值因子预期收益率的检验结果。

我们在读一段P25页的这段:

由构建方式克制,价差组合中多、空两头的收益率分别为变量取值最高的1/L股票的收益率和变量取最低的1/L股票的收益,他们的差异就反映了围绕该变量构建的因子的收益率。因子,价差组合正是使用排序法构建的因子模拟投资组合,而价差组合的收益率正是该因子的收益率

我的天哪?!原来,这才是因子收益率的完全体和真身啊,我之前一直自以为是的理解错了。鄙视一下自己吧,55555555

这里,再插入一下这里提到的“模拟投资组合”,定义在P22也的2.1.1节,因子模拟投资组合就是这个组合在其他因子上的暴露为0,且,这个投资组合的特异性风险最小。啥意思?讲人话吧,就是,这个组合最能代表这个因子。啥叫最能?就是:每个股票的风险暴露,在别的因子上,求和都为0,那,K个因子,就只剩这个了;特异性风险,说的就是残差,也就是因子解释不了的部分,这个残差也要尽量的小。

上述之后,我想,我自己是明白了,为何,有这样一个多减空,就可以代表这个因子了,原因是,他用投资组合,模拟了这个因子。

IC、RankIC、IR

前面谈过,咋看一个因子有效,最直白的办法,就是用股票的当期因子可以线性回归出下一期的收益来。 比如我用3只股票的当期因子,居然可以线性回归出来,下一期的收益率来,那就牛逼了。 我就能预测未来了呀。可惜,没这种好事。 你要是能做到,大致了解他们只有有线性相关性,就已经很牛逼了。 那怎么判断他们之间的线性相关性呢?相关系数呀。所以就引出了IC、RankIC和IR。

IC:

IC其实就是因子值,和,下一期的收益之间的相关性(相关性其实就是看是不是线性相关,1是完全正线性相关,0完全不线性相关)。 IC每一个调仓期,就会有一个IC值。 比如你有3只股票,就有3个当期因子值,然后你还会有下一期的收益值。3个当期因子值vs3个下期收益值。 然后你就可以算一个相关系数了吧,对,这个就是IC。 一般IC均值能大于0.02就靠点谱了,如果IC均值大于0.05就很牛逼了。

RankIC:

有时候,你更想定性,看看因子是否和收益相关,想更鲁棒性,所以他们就想到,咱别看具体的因子值和收益值了, 咱们看他们的排名,比如3只股票的当期因子值排序是1、3、2,下期的收益排序是3、2、1, 那么我们算算这两个序列的相关性呗。这个值就是RankIC。

IR:

所以IC是一个值,你一期一期的算,就得到了一个IC的序列,对吧:IC1、IC2、...ICN。 然后你求个 $$\frac{mean(IC们)}{std(IC们)}$$,对,均值除以标准差,这玩意就是IR。 其实就是看看IC们是不是稳定。

参考:https://bbs.quantclass.cn/thread/23991

因子挖掘流程

因子开发平台

在线平台

开源项目

参考

参考书

参考视频

收费视频

好文章