回归分析股票数据缺失
⑴ 回归分析法(探索变量之间的关系)
回归分析法是一种常用的统计分析方法,它可以用来研究两个或多个变量之间的关系,以及预测一个变量在给定其他变量的情况下的值。在实际应用中,回归分析法被广泛用于市场营销、金融、医学、社会科学等领域。本文将介绍回归分析法的基本概念、操作步骤以及在探索变量之间的关系中的应用。
回归分析法的基本概念
回归分析法是一种用来研究两个或多个变量之间关系的方法。其中,一个变量被称为因变量,另一个或其他变量被称为自变量。因变量是我们想要预测或解释的变量,自变量是我们用来预测或解释因变量的变量。回归分析法的目标是建立一个数学模型,从而描述因变量和自变量之间的关系,并用这个模型来预测因变量的值。
回归分析法的操作步骤
回归分析法的操作步骤包括数据收集、数据处理、模型建立和模型评估等步骤。
数据收集
在进行回归分析之前,我们需要收集相关的数据。数据可以来自于实验、调查、观察等方式。在收集数据时,我们需要注意数据的质量和可靠性,以及数据是否具有代表性。
数据处理
在收集到数据之后,我们需要对数据进行处理。数据处理的步骤包括数据清洗、变量选择、数据变换等。数据清洗是指对数据中的异常值、缺失值等进行处理,以保证数据的质量和可靠性。变量选择是指从所有的自变量中选择出与因变量相关性最强的自变量。数据变换是指对数据进行变换,以满足建模的要求。
模型建立
在数据处理之后,我们需要建立回归模型。回归模型可以是线性模型、非线性模型等。线性模型是指因变量和自变量之间的关系可以用一条直线来描述,非线性模型是指因变量和自变量之间的关系不能用一条直线来描述。建立回归模型需要选择合适的自变量、确定模型的函数形式、估计模型的参数等。
模型评估
在建立回归模型之后,我们需要对模型进行评估。模型评估的指标包括R方值、标准误差、残差分析等。R方值是用来评估模型的拟合程度,值越大说明模型的拟合程度越好;标准误差是用来评估模型的预测精度,值越小说明模型的预测精度越高;残差分析是用来检验模型的假设是否成立,残差越小说明模型的假设越成立。
回归分析法在探索变量之间的关系中的应用
回归分析法在探索变量之间的关系中有广泛的应用。例如,在市场营销中,我们可以用回归分析法来研究产品价格和销量之间的关系,以及广告投入和销售额之间的关系;在金融领域中,我们可以用回归分析法来研究股票价格和市场指数之间的关系,以及利率和经济增长之间的关系;在医学领域中,我们可以用回归分析法来研究患者年龄和疾病风险之间的关系,以及药物剂量和治疗效果之间的关系。
⑵ 什么时候用回归分析,什么时候用时间序列
两者的核心区别在于对数据的假设回归分析假设每个数据点都是独立的,而时间序列则是利用数据之间的相关性进行预测。
本文会先说明两者对数据的具体假设差异,再说明AR模型为什么虽然看上去像回归分析但还是有差别,最后也提到一个常见的混淆两者后在金融方向可能出现的问题。
回归分析对数据的假设:独立性在回归分析中,我们假设数据是相互独立的。这种独立性体现在两个方面:一方面,自变量(X)是固定的,已被观测到的值,另一方面,每个因变量(y)的误差项是独立同分布,对于线性回归模型来说,误差项是独立同分布的正态分布,并且满足均值为0,方差恒定。
这种数据的独立性的具体表现就是:在回归分析中,数据顺序可以任意交换。在建模的时候,你可以随机选取数据循序进行模型训练,也可以随机选取一部分数据进行训练集和验证集的拆分。也正因为如此,在验证集中,每个预测值的误差都是相对恒定的:不会存在误差的积累,导致预测准确度越来越低。
时间序列对数据的假设:相关性但对于时间序列分析而言,我们必须假设而且利用数据的相关性。核心的原因是我们没有其他任何的外部数据,只能利用现有的数据走向来预测未来。因此,我们需要假设每个数据点之间有相关性,并且通过建模找到对应的相关性,利用它去预测未来的数据走向。这也是为什么经典的时间序列分析(ARIMA)会用ACF(自相关系数)和PACF(偏自相关系数)来观察数据之间的相关性。
ACF和PACF分别用两种方式衡量数据点与数据点之间的相关性时间序列对相关性的假设直接违背了回归分析的独立性假设。在多段时间序列预测中,一方面,对于未来预测的自变量可能无法真实的观察到,另一方面,随着预测越来越远,误差会逐渐积累:你对于长远未来的预测应该会比近期预测更不确定。因此,时间序列分析需要采用一种完全不同的视角,用不同的模型去进行分析研究。
AR模型和线性回归模型的“相似”和区别时间序列分析中一个基础模型就是AR(Auto-Regressive)模型。它利用过去的数据点来预测未来。举例而言,AR(1)模型利用当前时刻的数据点预测未来的值,它们的数学关系可以被表示为:
它的表达形式的确和线性回归模型非常类似,甚至连一般的AR(n)模型都和线性回归有很高的相似性。唯一的差别就是等式右边的自变量(X)变成了过去的因变量(y)
而正是因为这一点微小的差异,导致两者的解完全不同。在AR模型中,由于模型自变量成为了过去的因变量,使得自变量与过去的误差之间有相关性。而这种相关性使得
利用线性模型得到的AR模型的解会是有偏估计(biased)。对于上述结论的实际证明需要引入过多的概念。在此我们只对AR(1)模型作为一个特例来分析。不失一般性,我们可以通过平移数据将AR(1)模型表示成如下的形式:
对于这类模型,线性回归会给出以下的估计值:对于一般的线性回归模型而言,由于所有的自变量都会被视为已经观测到的真实值。所以当我们取均值的时候,我们可以把分母当作已知,通过过去观测值和未来误差无关的性质得到无偏的结论。
利用回归模型预测AR模型的数据模拟结果:参数估计会是有偏估计事实上,我们会用线性回归模型去近似求解AR模型。因为虽然结果会是有偏的,但是却是一致估计。也就是说,当数据量足够大的时候,求解的值会收敛于真实值。这里就不再做展开了。
忽视独立性的后果:金融方向的常见错误希望看到这里你已经弄懂了为什么不能混淆模型的假设:尤其是独立性或相关性的假设。接下来我会说一个我见过的
因为混淆假设导致的金融方向的错误随着机器学习的发展,很多人希望能够将机器学习和金融市场结合起来。利用数据建模来对股票价格进行预测。他们会用传统的机器学习方法将得到的数据随机的分配成训练集和测试集。利用训练集训练模型去预测股票涨跌的概率(涨或跌的二维分类问题)。然后当他们去将模型应用到测试集时,他们发现模型的表现非常优秀——能够达到80~90%的准确度。但是在实际应用中却没有这么好的表现。
造成这个错误的原因就是他们没有认识到数据是高度相关的。对于时间序列,我们不能通过随机分配去安排训练集和测试集,否则就会出现“利用未来数据”来预测“过去走向”的问题。这个时候,即使你的模型在你的测试集表现出色,也不代表他真的能预测未来股价的走向。
总结时间序列和回归分析的主要区别在于对数据的假设:回归分析假设每个数据点都是独立的,而时间序列则是利用数据之间的相关性进行预测。虽然线性回归和AR模型看上去有很大的相似性。但由于缺失了独立性,利用线性回归求解的AR模型参数会是有偏的。但又由于这个解是一致的,所以在实际运用中还是利用线性回归来近似AR模型。忽视或假设数据的独立性很可能会造成模型的失效。金融市场的预测的建模尤其需要注意这一点。