简单线性回归

本页使用了标题或全文手工转换
维基百科,自由的百科全书
奥肯法则宏观经济学是简单线性回归的实例。图中因变量(经济增长率)被推论为与自变量(失业率变动)存在负向的线性关系。

统计学中,简单线性回归是指仅具有单一的自变量线性回归[1][2][3][4][5],其中“简单”系单一自变量之意。此回归可用于估计有限的截距斜率以推论因变量在特定自变量为条件下的均值

普通最小二乘法是常见用于寻求简单线性回归式的方法,目的是得到能使残差平方和最小的回归式。其它方法,诸如最小绝对偏差英语Least absolute deviations(使残差绝对值的总和最小)、泰尔-森估算(所有样本点两两配对的斜率中位数做为整体斜率)等,亦可应用于简单线性回归的命题。戴明回归英语Deming regression(考虑自变量与因变量同时为误差来源)的功能虽然与上述方法相似但不属于简单线性回归的范畴,因其不区分自变量与因变量且可能得到多个回归式。

以最小二乘法处理简单线性回归,则求得的斜率β等于自变量x与因变量y皮尔逊积矩相关系数与二者的标准偏差比值的乘积,

而再考虑截距α则保证使回归线通过自变量与因变量的均值 (x, y)

计算回归式[编辑]

以下皆以普通最小二乘法求解简单线性回归式。考虑以下的数学模型函数

是一条斜率βy轴截距α的直线。通常实际上自变量与因变量并非如此完美的关系而存在未知的误差εi,即

以表示第对资料中自变量与因变量的关系。此模型称为简单线性模型。

计算回归式的目标是根据资料计算估计值以“最佳地”估计参数αβ。由于采用最小二乘法进行计算,“最佳”系指能使残差平方和最小的参数估计值为目标。换句话说,我们寻求能使Q函数值最小的解,

此解为[6]

其中

带入

可得

此式呈现了rxy为预先将自变量与因变量预先标准化后的回归斜率。由于rxy界于-11之间,左式的绝对值势必不大于右式,体现了趋中回归英语Regression toward the mean的现象。

表示对应的xy的乘积和,

可使rxy简化成

简单线性回归的判定系数即为二变量间皮尔逊积矩相关系数的平方:

回归系数(斜率)的意义[编辑]

的估计式分子乘以,可改写为

可以看出,回归式的斜率为为权数的加权平均。因此,越大的资料对斜率的影响力越大。

截距的意义[编辑]

可经由下列式子估算: 。 由于,其中即为与横轴正值的夹角,可以得到

参考文献[编辑]

  1. ^ Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227. 
  2. ^ Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17]. When one independent variable is used in a regression, it is called a simple regression;(...) 
  3. ^ Lane, David M. Introduction to Statistics (PDF). : 462. 
  4. ^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 (English). 
  5. ^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 (English). 
  6. ^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285