inear Models and Machine Learning: Applications in Finance

线性回归和机器学习 -- 经济和金融的应用 (1)


线性回归发展史
  • 1795年,Carl Friedrich Gauss将最小二乘(Ordinary Least Square)应用在测绘和天文学
  • 1886年,生物统计学家Francis Galton明确定义了回归(regression)
  • 1900年,生物统计学家Karl Pearson引入了线性相关,回归系数的概念,以及统计矩(moments)
  • 1920年,生物统计学家Ronald Fisher发展了最大似然估计(maximum likelihood estimation),统计显著性(statistical significance),并引入了p-value的概念。
从统计学的发展可以看出,统计学的发展促进了生物统计的应用,同时生物统计的应用推动了统计理论的发展。得益于统计在生物学的发展,1930年一群经济学家在Cleveland, Ohio成立了Econometric Society,即计量经济学会。统计方法于是被大量应用于经济,一直延续到当前的量化交易。

与统计在生物以及其他领域的应用相比较,比如化学,在计量经济领域一直缺乏沟通职业数学家,统计学家和实际经济问题的人才。其中一个重要原因是教育的匮乏。在生物统计和化学的入门教材中常常包含当代流行的话题诸如聚类,分类,图论,模式识别,数值计算等等。而在经济领域和金融领域,基于2018年的一项调查,13,772篇经济和统计相关的文章中,只有0.65%提到了分类,聚类,神经网络,机器学习等当代流行的话题。

这种现象导致的结果是统计概念在经济和金融中的误用,和流行工具的缺失。其中最明显的例子就是线性回归。金融数据往往体现复杂的非线性关系。除了数值类型,数据本身可能是非结构化的,比如文本,图形,语音记录,图像记录等。另外,金融数据往往是高维度的,包含了大量的变量。

线性回归模型的误用可以归结为几个误区。

数据源

大数据时代的数据具有以下几个显著特征,这些特性使得线性模型难以适用。
  • 线性回归模型处理的传统的结构化数据不适合机器学习模型使用,而80%以上的有价值的信息来源于非结构化数据
  • 变量的数量往往大于观测样本的数量,即数据是高维度的
  • 稀疏性,即含有大量的0,并且夹杂大量的噪音
  • 分层结构,或者网络型的结构,数据中存在聚类特征
线性相关性

线性相关性作为一个度量,其正确应用基于合理的假设,在实际使用中是具有缺陷的:
  • 经济和金融的数据之间的关系往往是非线性的
  • 线性相关对离群值是高度敏感的,而经济和金融数据常常包含离群值
  • 线性相关性的使用假设数据具有正态分布,除此之外线性相关性的使用受到限制
  • 当数据具有明显的状态区间(regimes)时,线性相关性的值有误导作用
p-value

p-value用于模型的检测和参数的检测,在流行的因子投资中,比如value, momentum, quality, size等因子的研究中,p-value有着广泛的应用。然而,在典型的金融应用中,比如交易策略的设计,我们知道成功研发可长期获利的交易策略的概率是很低的。在这种情况下,使用p-value对回测的各种交易策略进行筛选,其结果是最终选择的策略大概率是错误的。

导致p-value使用误区的主要原因是:
  • p-value的正确使用需要较强的假设条件:不相关的回归变量,残差符合正态分布等
  • p-value估算于零假设相关的概率,我我们真正关心的是和对立假设相关的概率
  • p-value的估算是针对样品中的 in-sample,而我们关心的是样本外 out-of-sample
错误使用p-value的现象很普遍,以至于2019年美国统计学会不鼓励使用p-value作为统计显著性的度量。

过度拟合

一个统计模型可能在两种情况下出现过度拟合:
  • 训练数据的过度拟合,模型专注于解释无关信息而并不是有用的信号
  • 测试数据的过度拟合,模型的选择基于在测试数据的性能
线性模型缺乏有效的方式避免过度拟合,而机器学习模型对于不同类型的过度拟合有多种解决方案。

Read the article in Linkedin: here