在§1.1中,我们曾讨论过根据观测或试验获取的部分经验数据建立近似近似函数关系的回归分析问题.通常把这样得到的函数的近似表达式叫做经验公式. 这是一种广泛采用的数据处理方法经验公式建立后,就可以把生产或实践中所积累的某些经验提高到理论上加以分析,并由此作出某些预测和规划.
在§1.1的例12中,我们具体讨论了一个线性回归问题,并且学习了利用软件直接计算回归直线的方法. 这里我们将利用本章所学知识进一步来探讨线性回归问题中回归直线的计算方法.
设个数据点之间大致呈线性关系,则可设经验公式为
(和时待定常数).
因为各个数据点并不在同一条直线上,所以,我们只能要求选取这样的和,使得在处的函数值与观测或实验数据相差都很小,就是要使偏差
都很小,为了保证每个这样的偏差都很小,可考虑选取常数和,使
最小. 这种根据偏差的平方和为最小的条件来选择常数和的方法叫做最小二乘法.
把看成自变量为和的一个二元函数,那么问题就归结为函数在哪些点处取得最小值的问题. 令
,
整理得
.
用消元法可直接解得
,
其中是的省略记法.
验证1.1中例12的结论.
根据上述计算和的方法,我们可以验证§1.1中例12的结论:
.
即所求回归直线为.
例9 为测定刀具的磨损速度,按每隔一小时测量一次刀具的厚度的方式,得到如下实验数据:
顺序编号i |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
时间(小时) |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
刀具厚度(毫米) |
27.0 |
26.8 |
26.5 |
26.3 |
26.1 |
25.7 |
25.3 |
24.8 |
试根据上面的试验数据建立和之间的经验公式.
解 观察散点图易发现所求函数可近似看作线性函数,因此可设
,
其中和都是待定常数.
初步看出与呈线性关系,即.
但因为图中各点并不在同一条直线上,因此希望要使偏差(0,1,2,,7)都很小. 为了保证每个这样的偏差都很小,可考虑选取常数,,使
最小. 这种根据偏差的平方和为最小的条件来选择常数,的方法叫做最小二乘法.
求解本例
可考虑选取常数,使最小.
把看成自变量和的一个二元函数,那么问题就可归结为求函数在那些点处取得最小值. 令
,即.
整理得
(1)
计算得
, , , .
代入(1),得
.
于是,所求经验公式为
. (2)
根据上式算出的与实测的有一定的偏差,见下表:
注:偏差的平方和,其平方根. 我们把称为均方误差,它的大小在一定程度上反映了用经验公式近似表达原来函数关系的近似程度的好坏.