关联分析的方法及应用 关联分析的方法及应用

关联分析的方法及应用

  • 期刊名字:大学数学
  • 文件大小:478kb
  • 论文作者:郝一凡
  • 作者单位:沈阳教育学院
  • 更新时间:2020-09-25
  • 下载次数:
论文简介

第19卷第4期大学数学Vol.19,N2. 42003年8月COLLEGE MATHEMATICSAug.2003关联分析的方法及应用郝一凡(沈阳教育学院数学与计算机系,辽宁沈阳110016)[摘要]提出了根据采集的数据来分析其关联程度的方法.[关键词]线性;速率;关联;关联度[中图分类号] O159[文献标识码] B[文章编号] 1672- 1454(2003)04-0010-05在复杂的客观世界中,任何事物之间都存在着不同程度的相互关联.然而,这些关联往往是灰色的、模糊的,很难确定哪些事物之间的关联密切,而哪些事物之间的关联不密切.这便使我们在处理问题的时候,很难抓住问题的主要矛盾和主要特征.从严格的意义上讲,两个事物之间是否有关联,应该通过反映这两个事物的数量特征之间的关系来研究.为此,我们有定义设有变量 X和变量Y,若Y=f(X),则称变量Y与变量X按关系f相关联.但是,实际上大多数事物之间的关联都是不确定的,按上述定义来研究两个事物之间的关联未免太理想化了,也是很难做到的..设数据样本X;(t)= {x;(t),x;(t2),..,x;(tn)}(1)及X;(l)= {x;(l),x;(e),..x;(1n)}(2)是通过相等的时间间隔采集得到的.即对k=2,3,..,n-1,有te+1-tn=tn-tn-.我们的目的是:分析X;(t)与X;(t)这两组数据之间按什么关系关联;关联程度多大.确切地说,X;(t)与X;(t)两组数据之间按关系f的关联程度可以表示为1门(3)n 1+x,(tr)-fLx;(tk)丁i不难看出,R,不仅依赖于数据样本(1)和(2),而且与f的选择有关.而问题就出在客观存在的f是未知的,事先并不知道X;(t)与X;(t)究竟按什么关系关联更密切.在种类繁多的f中,选择什么样的f对问题的研究更有意义?为此,我们给出下面的关联分析的方法.1线性关联分析对于数据样本(1)和(2),假定x;(t)≠x;(2), x;(中国煤化工CNMHG. x;(tk+1:YHw;(th)=x(tn)- -x;(tk-1) .. x;(te+1)-x;(tk)(5)x;(tn)-x,(tk-1)'[收稿日期] 2002-07-22第4期郝一凡:关联分析的方法及应用1分别称为数据组X,(t)和X;(t)在th时刻的线性变化率.这里规定,如果分母x;(tk)-x;(tn-1)=0 (或 x;(tn)-x;(ta- 1)=0),则用x;(to-1)-x;(tx-2) (或x;(te-1)-x;(t- 2))来替换.....直至分母不为0.显然:当x;(te+1)=x;(tn)=x;(tx- )时,X;(t)在th时刻呈线性水平状态;当w;(t)=1时,X;(t)在tk时刻呈线性递增或线性递减状态;当w;(t)>1时,X;(t)在tk时刻呈加速递增或加速递减状态;当0≤w;(t;)<1时,X(t)在tk时刻呈减速递增或减速递减状态;当w,(t2)<0时,X,(t)在tk时刻呈极大或极小状态.我们认为,w;(tn)与w,(t)越接近,X;(t)与X;(t)在tk时刻的线性关联程度就越高.因此,对于数据样本(1)和(2),定义的(l)= -1+x;(tx+1)-x;(tk)_ x;(t&+1)-x;(tg)(6)| x;(tk)- x;(tn-1) x;(tn)- -x;(tr-1)称为X,(t)与X;(t)在te时刻的线性关联系数;定义(7)n一2称为X,(t)与X;(t)的线性关联度.关于这个定义的合理性,可做如下证明:事实上,如果R,=1,则对任意的k=2,3...,n-1,必有气(t)=1.即对任意的k=2,3...,n-1,有x:(te+)-x;(tk)_ xj(te+1)-x;(th)(设为a≠0).x;(tn)- x;(tk-1) xj;(tn)- xj;(tk-)于是有x;(le+1)-x;(n)=a[x;(te)-x;(1n-1)],x;(n+)- x;(tn)=a[x;(tn)- x;(- )].整理得x;(te+1)-x;(t)=ak-'[x;(t2)- x;(t)],x;(le+1)- -x;(n)=a"-'[x;(t2)- x;(t)].所以x;(te+1)-x;(t)_ x;(t2)- x;(t)x;(t*+1)- - x;(tn)~ x;(t2)- x;(t)"这表明点列{(x;(t),x;(1))(x(2),x(2)),(x;(tn),x;(n))}(8)在一条直线上,即X;(t)与X;(I)线性关联.反之,如果X,(t)与X(l)线性关联,则对任意的k=1,2,.n,都有x;(ln)=ax;(l)+b.于是,对任意的k=2,3,.,n-1,都有x;(tx+1)-x;(tp)_[ _ax;(tx+1)+b]- [ax;(tk)+b]_ x;(te+1)-x;(tp)x;(tp)- x;(tk-1) [ax;(tp)+b]- [ax;(tx-1)+b]~ x;(th)- x;(tk-1)所以,对任意的k=2,3,..,n-1,有R,=1.中国煤化工特别地,如果点列MHCNM HG{(1,x;(t)),(lz,x;(l2)),",(in,z;(Ln))}在一条直线上,点列{(1 ,x;(l)),(l2,x;())..(n,x;(1,))}也在一条直线上,那么,点列(8)-定在一条直线上.事实上,设点列(9)在直线y=anx+by上,点列(10)在直线y=aqx+b2上,即对任意的k=1,2,3,2大学数学第19卷..n,都有x;(tk)=ante+b,x;(tz)=azte+b2.于是,如果as≠0,则有x;(tn)="x;(t)+'ab,-a2b.a这表明点列(8)在直线._aabz-a2b1an上;如果an=0,则点列(8)在直线x=b1上.上述事实说明:如果an≠0且ar≠0或an=0且a2=0,即点列(9)与点列(10)都不在水平线或都在水平线上,则X,(t)与X,(t)线性关联;如果a1=0但ar≠0或an≠0但an=0,即点列(9)与点列(10)其中一个在水平线上而另一个不在水平线上,可以理解为X;(t)与X;(t)非线性关联.线性关联分析法还可以采用下面的形式:对于数据样本(1)和(2),应用最小二乘法拟合点列(8),设得到的近似关系为x;(t)≈ax;(tn)+b,则定义R= n台1+ |x,(u)-[ax;(t)+6]1'称为X;(t)与X;(t)的线性关联度.很显然,这样的定义也是合理的.2相对速率关联分析对于数据样本(1)和(2),假设它们都取正值.定义λ;(tk)=x;(t+1)- x;(th)(12)x;(t)[4e+1-4x]'称为数据组X;(t)在th时刻的相对速率.我们同样认为,入(tn)与);(tk)越接近,X;(t)与X;(t)在In时刻的关联程度就越高.因此,定义(13)1十x;(t6+1)-x;(t)_ x;(t6+1)- x;(tn)’x;(tk)[te+1-tk] x;(tn)[te+1-tr]称为X,(t)与X;(t)在te时刻的相对速率关联系数.定义R;=z;(t),(14)n-1台称为X,(t)与X;(t)的相对速率关联度.关于这个定义的合理性,可做如下证明:事实上,如果R,=1,则对任意的k=1,2,3,.,n-1,必有rj(tn)=1.即对任意的k=1,2,3,...n-1,有x,(to+1)-x;(t2) _ x;(h+I)-x,(t)(设为a).x;(tn)x;(t)于是有中国煤化工x:(te+1)- x;(tk)=ax;(tn),2.MHCNMH G对任意的k=1,2,3...n,有x;(t)=(1 +a)*-'x;(t),x;(t)=(1 +a)*-'x;(t).所以x;(th) _ x;(t)即x;(r)=')x;(n).x;(th) x;(t)'第4期郝一凡:关联分析的方法及应用1:这表明X;(t)与X;(t)按相对速率关联.反之,如果X;(t)与X;(t)按相对速率关联,则对任意的k=1,2,3,..,n,都有x;(tk)=ax;(tn).于是,对任意的k=1,2,3...,n-1,都有x;(t+1)- x;(tk)_ ax;(te+1)- ax;(tn)_ x;(te+1)- x;(t)x;(ln)所对,任意的k=1,2,3,,n-1,有R,=1.相对速率关联分析比线性关联分析更注重数据的变化,更强调数据之间依赖变化才有较高的关联度.3关联分析的举例陕西人民出版社1983年出版的《理科最新常用数据手册》中记载了1931 年~1960年世界各地区月平均温度、湿度及降雨量等数据资料.在此我们以法国巴黎地区1931年~1960年平均温度、湿度及降雨量(表1)为依据来分析温度、湿度及降雨量这三者的关联程度.表11931 ~ 1960101112温度(C)3. 13. 87.210. 314.017.119.018.515.911.16.4. 1湿度(%)89847569707278降雨(mm)53252应用线性关联分析方法,首先应用公式(4)计算月平均温度、湿度及降雨量在不同时刻的线性变化率(见表2).表2380温度w)(tn) .4. 860.911. 190.840. 61-0. 265.21. 850.90| 0. 63湿度w2(tn)1.80. 67-0. 170. 83降雨ws(tn)-0.552. 33-0.14-2.51.4-1.570.18.-0.5-1其次应用公式(6)计算月平均温度、湿度及降雨量之间在不同时刻的线性关联系数(见表3).表36温度与湿度ξ2(tn)0. 250. 810. 460. 540.560. 310.310.540.88| 0. 61湿度与降雨ξxs(tn)0. 450. 300. 880.63 0. 180. 550. 430.5降雨与温度5is(tn)0.210.410. 470. 510.240.380.130. 370. 420.38.最后应用公式(7)计算月平均温度、湿度及降雨量之间的线性关联度.温度与湿度的线性关联度为0.25+0.81+0.45+0.54+0.56+0.31h°21 'r中国煤化工=0.527.湿度与降雨的线性关联度为fYHCNMHG_ 0.56+0. 45+0.30+0.88+0.30+0.63+0. 18+0. 55+0.43+ 0. 50=0. 478.降雨与温度的线性关联度为Ris=0.21+0.41+0.47+0.51+0.24+0.38+0.13+0.37+0.42+0.38=0. 352.14大学数学第19卷应用相对速率关联分析方法,首先应用公式(12)计算月平均温度、湿度及降雨量在不同时刻的相对速率(见表4).表4451011温度小(tx)0. 230. 890. 430. 360.22 0.11-0.03|-0.14-0.30-0.39 -0.40湿度λ2(tn)-0.06-0.11|-0.08 00. 010. 030. 080. 06)降雨Ag(tz)-0.20|-0.26 0.190. 37-0.04 0.100. 13-0. 18|-0.04 0.02-0. 02其次应用公式(13)计算月平均温度、湿度及降雨量之间在不同时刻的相对速率关联系数(见表5).表5温度与湿度τ12(ts)0.770.50. 660. 740.82 0.910.940.82.0. 720. 690.71温度与降雨T23(te)0.880. 870. 790.730. 960.920.910.790. 98降雨与温度T1s(t)0.700. 470. 810. 990.99.0. 86最后应用公式(14)计算月平均温度、湿度及降雨量之间的相对速率关联度.温度与湿度的相对速率关联度为R12=0.77+0.50+0.66+0.74+0.82+0.91+0.94+0.82+0.72+0.69+0.71=0. 75.1湿度与降雨的相对速率关联度为p_ 0. 88+0.87+0.79+0.73+0.96+0.92+0.91+0.79+0.89+0.96+0.98_、 ee降雨与温度的相对速率关联度为R1s=0.70+0.47+0.81+0.99+0. 79+0.99+0.86+0.96+0.79+0.71+0.72,= =0. 80.以上结论不难发现,月平均温度、湿度及降雨量三者之间线性关联程度的排序为:温度与湿度关系较密切;湿度与降雨关系次之;降雨与温度关系较弱.而三者之间相对速率关联程度的排序为:湿度与降雨关系较密切;降雨与温度关系次之;温度与湿度关系较弱.两个结论不尽相同,其实这并不矛盾,因为两种关联程度的侧重点并不相同,前者强调“线性”关系,两个量之间只要接近线性关系,就认为它们有较好的关联;后者强调“相对速率”,两个量各自的相对速率越接近,就越认为它们有较好的关联.这两个侧重恰恰在上面的例子中得到了体现.[参考文献][1]邓聚龙.灰色系统(社会.经济)[M].北京:国防工业出版社,1985..[2]漆贯荣等.理科最新常用数据手册[M].西安:陕西人民出版社,1983.The Method and Applicating of Relevance and Anal ysis中国煤化工HAO Yi-YHCNMHG(Department of Mathematics and Computer, Shenyang College of Education, Shenyang 110016, China)Abstract : This paper advances the method of analysing relating level according to the collected data.Key words: linear; rate; relevance ; relating level

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。