多因子量化选股。
多因子量化选股的原理不难理解,即认为股票收益率是由一系列因素(因子)决定的,根据经济金融理论或市场经验寻找这些因子,然后通过对历史数据的拟合和统计分析进行验证和筛选,最后以这些因子的组合作为选股标准,买入满足这些因子的股票。在实践中,多因子量化选股已经是一个相对成熟且大致框架较为固定的策略,具体可分为五个步骤,分别为因子选取、因子有效性检验、因子筛选、综合评分模型以及模型的评价和改进。
多因子选股策略的优缺点
多因子量化选股本质是基于历史数据的统计分析,通过寻找那些与股票收益率最相关的因子,并基于套利定价理论(APT),将多个影响因子进行组合,构建综合选股指标来筛选股票。多因子选股研究的对象主要是因子,因此单因子的回测和有效性检验是整个多因子模型的重要组成部分。
- 缺点:任何一个多因子选股模型具有一定的时效性、风险性,需要使用者根据市场情况进行调整和更新,这是多因子选股策略存在的不足。
- 优点:多因子选股模型作为一种量化投资选股策略,最大的优势在于其结果是根据客观的数据和完整的模型得出的,可以避免交易者个人主观意念的干扰,具有一定客观性。
因子的选择
多因子选股模型的第一步是发掘各类与股票收益率相关的因子,因子的选择主要基于经济逻辑和市场经验,在经典的规模、估值、动量、波动率等全市场通用因子基础上,根据宏观、行业、公司基本面、市场特征,结合各类特异因子来构造投资组合。影响股价收益的因子多种多样,见仁见智,参考券商研报总结,有以下几类(还可以继续细分和挖掘):
- 市场整体:市场因子、系统性风险等;
- 估值因子:市盈率、市净率、市销率、 市现率、 企业价值倍数、 PEG 等;
- 成长因子:营业收入增长率、营业利润增长率、净利润增长率、每股收益增长率、净资产增长率、股东权益增长率、经营活动产生的现金流量金额增长率等;
- 盈利能力因子:销售净利率、毛利率、净资产收益率、资产收益率、营业费用比例、财务费用比例、息税前利润与营业总收入比等;
- 动量反转因子:前期涨跌幅等;
- 交投因子:前期换手率、量比等;
- 规模因子:流通市值、总市值、自由流通市值、流通股本、总股本等;
- 股价波动因子:前期股价振幅、日收益率标准差等;
- 分析师预测因子:预测净利润增长率、预测主营业务增长率、盈利预测调整等。
因子有效性的检验
一般检验方法主要采用排序的方法检验候选因子的选股有效性。例如:可以每月检验。
具体而言,对于任意一个候选因子,在模型形成期的第一个月初开始计算市场中每只正常交易股票的该因子的大小,按从小到大的顺序对样本股票进行排序,并平均分为 N 个组合,一直持有到月末,在下月初再按同样的方法重新构建 N 个组合并持有到月末,一直重复到模型形成期末(候选组合的数量是一个超参数。具体参数的最优选择,需要用历史数据进行检验)。
剔除冗余因子
不同的选股因子可能由于内在的驱动因素大致相同等原因,所选出的组合在个股构成和收益等方面具有较高的一致性,因此其中的一些因子需要作为冗余因子剔除, 而只保留同类因子中收益最好,区分度最高的一个因子。例如成交量指标和流通量指标之间具有比较明显的相关性。流通盘越大的,成交量一般也会比较大,因此在选股模型中,这两个因子只选择其中一个。
冗余因子剔除的方法:假设需要选出 K 个有效因子,样本期共 M 月,那么具体的冗余因子剔除步骤为:
- 先对不同因子下的 N 个组合进行打分,分值与该组合在整个模型形成期的收益相关,收益越大,分值越高;
- 按月计算个股的不同因子得分间的相关性矩阵;
- 在计算完每月因子得分相关性矩阵后,计算整个样本期内相关性矩阵的平均值;
- 设定一个得分相关性阀值,筛选出得分相关性平均值矩阵中大于该阀值的元素所对应的因子,这些因子中只保留与其他因子相关性较小、有效性更强的因子,而其它因子则作为冗余因子剔除。
多因子选股的判断方法
多因子选股的判断方法分为回归法(OLS)和打分法。
回归法
回归方法是利用股票历史收益率对筛选出的多因子进行回归,估计出回归方程系数,然后将最新的因子带入回归方程估计股票未来收益,以此为依据进行选股。回归方法的问题是很难找到一个精确拟合的回归方程,模型误差比较大。
打分法
打分法是根据各个因子的大小对股票进行打分,然后根据一定的权重加权得到一个总分,根据总分对股票进行筛选。例如每个月初,对市场中正常交易的个股计算每个因子的最新得分并按照一定的权重求得所有因子的平均分。最后,根据模型所得出的综合平均分对股票进行排序,然后根据需要选择排名靠前的股票。例如,选取得分最高的前 20%股票,或者选取得分最高的 50 到 100 只股票等等。打分法操作简单,但是权重的确定比较困难,对结果的影响较大。
模型的评价及持续改进
多因子量化选股模型建立在市场无效或弱有效的前提之下,随着使用多因子选股模型的交易者数量的不断增加,有的因子会逐渐失效,而另一些新的因素可能被验证有效而加入到模型当中。此外,一些因子可能在过去的市场环境下比较有效,而随着市场风格的改变,这些因子可能短期内失效,而另外一些以前无效的因子会在当前市场环境下表现较好。
在计算综合评分的过程中,各因子得分的权重设计、交易成本考虑和风险控制等都存在进一步改进的空间。因此在综合评分选股模型的使用过程中会对选用的因子、模型本身做持续的再评价和不断的改进以适应变化的市场环境。因子和参数的获取只能通过历史数据回测来获得,但是在回测过程中,防止出现过度优化也很重要的。