谈到量化投资,我们大家常常会听到“模型”这个词,量化投资中的模型是什么概念?又该如何理解模型训练中的“过拟合”问题?本期专栏将围绕有关专业线:何为模型?如何区分模型与算法?
一般而言,模型(Model)由数据及怎么样去使用历史数据对未来数据来进行预测的过程组成。而算法(Algorithm)指执行一种优化过程,即在训练数据集上让模型的误差最小化。
在模型开发/模型预测、模型训练/预测值合并等环节中会将提取到的特征或Alpha因子进一步加工,得到“更优Alpha”。早期量化私募的模型开发以线性模型为主,随着非线性模型(如机器学习、深度学习模型)占比逐步提升,其模型复杂度、参数相比传统统计学习模型有了很大提升,预测效果也更好,量化机构整体投资能力获得较大进步——具体到如何精细化处理树模型、神经网络模型等也从侧面体现出各家研究深度和广度的不同。
量化投资的环节中所采用的模型大概能分为三类:因子挖掘模型、预测模型和组合优化及交易算法模型。其中预测模型的发展总体而言是从简单到复杂、未来还要更复杂的迭代过程。目前,业内比较通用的预测模型包括:
当模型过于复杂、参数数量过多、学习能力太强时,有可能会出现模型对于训练集以外的数据泛化能力差,表现为过拟合。
由于大多数机器学习模型并不是专门为金融时间序列开发的,这些模型在量化建模中的应用需要适时调整。所以将机器学习应用到量化投资领域时,在模型训练中如何预防和避免过拟合显得很重要,需要考虑预测精度、模型可解释性、模型鲁棒性和计算复杂性等因素。其中金融时间序列预测必须避开使用未来信息,有时更倾向于跟着时间的推移将时间序列分成训练、验证和测试块,即进行前向验证,而非模型超参数优化中的交叉验证。
模型在回测与实盘中表现不一致是投资领域中都会存在的现象,并不都是过拟合导致的,还可能与以下因素有关:
北交所举办券商及上市公司并购重组座谈会:激发并购重组市场活力,提升并购重组质量
开市推迟!欧股最新调整,美股也有大变化……周末这些消息或将影响股市(附新股日历+机构策略)
A股1505家专精特新企业区域大分布:苏粤浙三省数量居前 显现产业链中坚力量
10月27日晚间公告集锦:海联讯控制股权的人拟筹划海联讯和杭汽轮进行重大资产重组
北交所举办券商及上市公司并购重组座谈会:激发并购重组市场活力,提升并购重组质量