典型相关分析和通径分析

上传人:刀*** 文档编号:5526870 上传时间:2023-11-19 格式:PPT 页数:84 大小:866.51KB
收藏 版权申诉 举报 下载
典型相关分析和通径分析_第1页
第1页 / 共84页
典型相关分析和通径分析_第2页
第2页 / 共84页
典型相关分析和通径分析_第3页
第3页 / 共84页
典型相关分析和通径分析_第4页
第4页 / 共84页
典型相关分析和通径分析_第5页
第5页 / 共84页
文档描述:

文档《典型相关分析和通径分析》内容(84页完美版)由用户上传提供,感谢您阅读,更多关于《典型相关分析和通径分析(珍藏版)》内容请在新文库网搜索。

1、典型相关分析 一、什么是典型相关分析及基本思想一、什么是典型相关分析及基本思想 通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷。),(21pxxx),(21qyyy 在解决实际问题中,这种方法有广泛的应用。如,在工厂里常常要研究产品的q个质量指标P个原材料的指标 之间的相关关系;也可以是采用典型相关分析来解决的问题。如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使

2、变量个数简化,又可以达到分析相关性的目的。),(21pxxx),(21qyyy例 家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量:分析两组变量之间的关系。:户主受教育程度:家庭的年收入:户主的年龄321yyy:每年外出看电影频率率:每年去餐馆就餐的频21xxX1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵y2y3y1x2x1331

3、22111112211111ybybybVxaxau33222211222221122ybybybvxaxau?),(11vu?),(22vu 典型相关分析的思想:首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。如此下去,直至两组变量的相关性被提取完为止。ppxaxaxau12211111qqybybybv12211111 ppxaxaxau22221122qqybybybv22221122 u2和v2与u1和v1相互独立,但u2和v2相关。如此继续下去,直至进行到r步,rmin

4、(p,q),可以得到r组变量。从而达到降维的目的。),(1ruuU),(1rvvV二、典型相关的数学描述典型相关的数学描述(一)想法 考虑两组变量的向量),(2121qpyyyxxxZ其协方差阵为qpqp22211211 其中11是第一组变量的协方差矩阵;22是第二组变量的协方差矩阵;12=21是X和Y的其协方差矩阵。如果我们记两组变量的第一对线性组合为:Xu11Yv11 其中:),(121111paaa),(121111q1)()(11111 XVaruVar1)()(1221111 YVarvVar11211111,),(),(11YXCovvuCovvu 所以,典型相关分析就是求1和1,

5、使uv达到最大。(二)典型相关系数和典型变量的求法 在约束条件1)(11111uVar1)(12211 vVar下,求1和1,使uv达到最大。根据数学分析中条件极值的求法,引入Lagrange乘数,求极值问题,则可以转化为求)1()1(2)1(2),(12211111112111 的极大值,其中和是 Lagrange乘数。)2(0012212111111121)3(00122121111112 将上面的3式分别左乘 和 11 001221121111111121 1221121111111121之间的相关系数和,且是则:111121vu 将 左乘(3)的第二式,得122120122122121

6、2112212011212112212 并将第一式代入,得011121211221201212112212111 的特征根是 ,相应的特征向量为2112212111210112121111210122211211121将 左乘(3)的第一式,并将第二式代入,得11112012112111211221211121122221122121111MM令2221MM则 的特征根是 ,相应的特征向量为211111212221 结论:既是M1又是M2的特征根,和 是相应于M1和M2的特征向量。211 至此,典型相关分析转化为求M1和M2特征根和特征向量的问题。第一对典型变量提取了原始变量X与Y之间相关的主

7、要部分,如果这部分还不能足以解释原始变量,可以在剩余的相关中再求出第二对典型变量和他们的典型相关系数。在剩余的相关中再求出第二对典型变量和他们的典型相关系数。设第二对典型变量为:xu22yv22在约束条件:1)(21122uVar1)(22222vVar0),cov(),cov(21112121 xxuu0),cov(),cov(21112121 yyvv 求使 达到最大的 和 。212222),cov(vu22典型相关分析典型相关分析典型相典型相关系数关系数调整典型调整典型相关系数相关系数近似方差近似方差典型相关系典型相关系数的平方数的平方10.6879480.6878480.0052680

8、.47327220.1868650.1866380.0096510.034919X组典型变量的系数 U1U2X10.7689-1.4787X20.27211.6443Y组典型变量的系数 V1V2Y10.04911.0003Y20.8975-0.5837Y30.19000.29562112721.07689.0 xxu2126443.14787.1xxu32111900.08975.00491.0yyyv32122956.05837.00003.1yyyv三、典型变量的性质1、同一组的典型变量之间互不相关 xukkybvkkikrik;,2,1,0),cov(),cov(11ikikikxxuu

9、0),cov(),cov(11ikikikbbybybvvX组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:Y组的典型变量之间是相互独立的:组的典型变量之间是相互独立的:2、不同组的典型变量之间相关性 不同组内典型变量之间的相关系数为:),cov(),cov(ybxavujijijijibabyxa12),cov()232.(12112212paajij看 jjijaa1121jijaa11.22jijii,0,),min(,2,121ppi同对则协方差为i,不同对则为零。3、原始变量与典型变量之间的相关系数原始变量相关系数矩阵 22211211RRRRRx典型变量系数矩阵prpp

10、rrrpraaaaaaaaaaaaA21222211121121qrqqrrrqrbbbbbbbbbbbbB21222211121121y典型变量系数矩阵),cov(),cov(2211ppjjjijixaxaxaxux),cov(),cov(),cov(2211ppjijijixaxxaxxaxpkxxkjkia1,),cov(),cov(2211qpjjjijiybybybxvx),cov(),cov(),cov(2211ppjijijiybxybxybxqkyxkjkib1,pkxxxkjjiikiaux1,/),(qkxyxkjjiikibvx1,/),(),cov(),cov(221

11、1ppjjjijixaxaxayuy),cov(),cov(),cov(2211ppjijijixayxayxaypkxykjkia1,),cov(),cov(2211qpjjjijiybybybyvy),cov(),cov(),cov(2211ppjijijiybxybxybxqkyykjkib1,pkyxykjjiikiauy1,/),(qkyyykjjiikibvy1,/),(典型变量的结构 U1U2X10.9866-0.1632X20.88720.4614 V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型变量的结构 V1V2X10.67

12、87-0.0305X20.61040.0862 U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563 两个反映消费的指标与第一对典型变量中u1的相关系数分别为0.9866和0.8872,可以看出u1可以作为消费特性的指标,第一对典型变量中v1与Y2之间的相关系数为0.9822,可见典型变量v1主要代表了了家庭收入,u1和 v1的相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的;第二对典型变量中u2与x2的相关系数为0.4614,可以看出u2可以作为文化消费特性的指标,第二对典型变量中v2与Y1和Y3之间的分别相关系数为0.

13、8464和0.3013,可见典型变量v2主要代表了家庭成员的年龄特征和教育程度,u2和 v2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间的有关。.304、各组原始变量被典型变量所解释的方差X组原始变量被ui解释的方差比例pmpiiiixuxuxuu/)(2,2,2,21X组原始变量被vi解释的方差比例pmpiiiixvxvxvv/)(2,2,2,21y组原始变量被ui解释的方差比例y组原始变量被vi解释的方差比例qnqiiiiyuyuyuu/)(2,2,2,21qnqiiiiyvyvyvv/)(2,2,2,21 被典型变量解释的被典型变量解释的X组原始变量的方差组原始变量的方差

14、被本组的典型变量解释被本组的典型变量解释被对方被对方Y组典型变量解释组典型变量解释比例比例累计比例累计比例典型相关典型相关系数平方系数平方比例比例累计比例累计比例10.88030.88030.47330.41660.416620.11971.00000.03490.00420.4208 被典型变量解释的被典型变量解释的Y组原始变量的方差组原始变量的方差被本组的典型变量解释被本组的典型变量解释被对方被对方X组典型变量解释组典型变量解释比例比例累计比例累计比例典型相关典型相关系数平方系数平方比例比例累计比例累计比例1 0.46890.46890.47330.22190.22192 0.27310.

15、74200.03490.00950.2315.33注:冗余分析 典型相关冗余分析是一个比较陌生的概念,然而它不仅对于典型相关分析十分重要,而且对于整个统计分析都十分重要。其含义是多余,过剩的意思。冗余主要是指方差而言的。如果一个变量中的部分方差可以由另一个变量的方差来解释或预测,即方差相冗余。冗余分析是通过冗余指数来测度,冗余指数是一组的典型变量对另一组观测变量总方差的解释比例,是组间交叉共享比率。.34五、样本典型相关系数 在实际应用中,总体的协方差矩阵常常是未知的,类似于其他的统计分析方法,需要从总体中抽出一个样本,根据样本对总体的协方差或相关系数矩阵进行估计,然后利用估计得到的协方差或相

16、关系数矩阵进行分析。由于估计中抽样误差的存在,所以估计以后还需要进行有关的假设检验。.35 1、假设有X组和Y组变量,样本容量为n。假设(X1,Y1),(X2,Y2),(Xn,Yn),观测值矩阵为:nqnnpnqpqpqpqpyyxxyyxxyyxxyyxxyyxxZ11441441331231221221111111.36yyyxxyxxSSSSnn1111ZZ样本的协方差:qnqnpnpnqqppqqppqqppqqppyyyyxxxxyyyyxxxxyyyyxxxxyyyyxxxxyyyyxxxx111141414141313121312121212111111111Z.37 2、计算特

17、征根和特征向量 求M1和 M2的特征根 ,对应的特征向量 。则特征向量构成典型变量的系数,特征根为典型变量相关系数的平方。)(111yxyyxyxxSSSSM令:)(112xyxxyxyySSSSM令:22221r),2,1(riii和.38六、典型相关系数的检验典型相关分析是否恰当,应该取决于两组原变量之间是否相关,如果两组变量之间毫无相关性而言,则不应该作典型相关分析。用样本来估计总体的典型相关系数是否有误,需要进行检验。检验的统计量:(一)整体检验)0:;0:(10 xyxyHH|0yyxxSSS0:10rH不为零中至少11),2,1(:riHi.39yyyxxyxxSSSSSI0SSI

18、SSSSISS0Ixy1xxyyyxxyxx1xxyxxy1xxyxyyxxSSSS00S所以,两边同时求行列式,有yyyxxyxxxy1xxyyyxxyxx1xxyxSSSSI0SSISSSSISS0I.40yx1yyxyxxyyyyyxxyxxSSSSSSSSS|S|yx1yyxy1xxxxyySSSSISSMISSSSI|S|S|S|yx1yyxy1xxyyxx0.41 由于 所以若M的特征根为,则(l-M)的特征根为(1-)。根据矩阵行列式与特征根的关系,可得:)()1(MIIMIIIMIMISSSSISSSyxyyxyxxyyxx|110piip1222221)1()1()1)(1(

19、小,则支持备择假设。0.42 在原假设为真的情况下,检验的统计量 Q=-(n-1)-(p+q+1)/2ln0近似服从自由度为pq的2分布。在给定的显著性水平下,如果22(pq),则拒绝原假设,认为至少第一对典型变量之间的相关性显著。依此类推,再检验下一对典型变量之间的相关性。直至相关性不显著为止。对两组变量x和y进行典型相关分析,采用的也是一种降维技术。我们希望使用尽可能少的典型变量对数,为此需要对一些较小的典型相关系数是否为零进行假设检验。H0经检验被拒绝,则应进一步检验假设。.43(二)部分总体典型相关系数为零的检验 H0:P2Pr0 Hl:P2,P3,Pr至少有一个不为零。若原假设H0被

20、接受,则认为只有第二对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的,并进一步检验假设 H0:P3Pr0 H1:P3,Pr至少有一个不为零。如此进行下去.直至对某个k,H0:P(k十1)PM0H1:P(k+1),,Pm至少有一个不为零.44检验的统计量rkiikr12)1(kqpknQln)1(21)1(近似服从自由度为(p-k)(q-k)的2分布。在给定的显著性水平下,如果22(p-k)(q-k),则拒绝原假设,认为至少第k+1对典型变量之间的相关性显著。.45 H0:当前和后面的典型相关系数均为零当前和后面的典型相关系数均为零 H1:至少当前的典型相关系数为零至少当前

21、的典型相关系数为零LikelihoodRatioApprox FNum DFDen DFPr F 10.508334981341.2346199900.0001 20.96508130180.838299960.0001可见,前面两对典型变量的相关性是很强的。.46职业满意度典型相关分析 某调查公司从一个大型零售公司随机调查了784人,测量了5个职业特性指标和7个职业满意变量。讨论 两组指标之间是否相联系。X组:Y组:X1用户反馈 Y1主管满意度X2任务重要性 Y2事业前景满意度X3任务多样性 Y3财政满意度X4任务特殊性 Y4工作强度满意度X5自主权 Y5公司地位满意度 Y6工作满意度 Y7

22、总体满意度.47X1X2X3X4X5Y1Y2Y3Y4Y5Y6Y7X11.000.490.530.490.510.330.320.200.190.300.370.21X20.491.000.570.460.530.300.210.160.080.270.350.20X30.530.571.000.480.570.310.230.140.070.240.370.18X40.490.460.481.000.570.240.220.120.190.210.290.16X50.510.530.570.571.000.380.320.170.230.320.360.27Y10.330.300.310.24

23、0.381.000.430.270.240.340.370.40Y20.320.210.230.220.320.431.000.330.260.540.320.58Y30.200.160.140.120.170.270.331.000.250.460.290.45Y40.190.080.070.190.230.240.260.251.000.280.300.27Y50.300.270.240.210.320.340.540.460.281.000.350.59Y60.370.350.370.290.360.370.320.290.300.351.000.31Y70.210.200.180.16

24、0.270.400.580.450.270.590.311.00.48 Canonical Correlation Analysis AdjustedCanonicalCorrelationApproxCanonicalCorrelationSquaredStandardError CanonicalCorrelation10.5537060.5530730.0069340.30659120.2364040.2346890.0094420.05588730.119186.0.0098580.01420540.072228.0.0099480.00521750.057270.0.0099680.

25、003280.49 LikelihoodRatioApprox FNum DFDen DFPrF10.63988477134.42373542018.150.000120.9228094133.82422434848.670.000130.9774354115.26341527578.390.000140.9915203010.65798199820.000150.9967201510.9600399920.0001当前和后面的典型相关系数均为零的检验.50 U1U2U3U4U5X10.42170.3429-0.8577-0.78840.0308X20.19511-0.66830.4434-0

26、.26910.9832X30.1676-0.8532-0.25920.4688-0.9141X4-0.02290.3561-0.42311.04230.5244X50.45970.72870.9799-0.1682-0.4392X组的典型变量.51V1V2V3V4V5Y10.4252-0.08800.4918-0.1284-0.4823Y20.20890.4363-0.7832-0.3405-0.7499Y3-0.0359-0.0929-0.4778-0.60590.3457Y40.02350.9260-0.00650.40440.3116Y50.2902-0.10110.2831-0.446

27、90.7030Y60.5157-0.5543-0.41250.68760.1796Y7-0.1101-0.03170.92850.2739-0.0141Y组的典型变量.52 U1U2U3U4U5X10.82930.1093-0.4853-0.24690.0611X20.7304-0.43660.20010.00210.4857X30.7533-0.4661-0.10560.3020-0.3360X40.61600.2225-0.20530.66140.3026X50.86060.26600.38860.1484-0.1246 V1V2V3V4V5Y10.75640.04460.3395-0.1

28、294-0.3370Y20.64390.3582-0.1717-0.3530-0.3335Y30.38720.0373-0.1767-0.53480.4148Y40.37720.7919-0.00540.28860.3341Y50.65320.10840.2092-0.43760.4346Y60.8040-0.2416-0.23480.40520.1964Y70.50240.16280.4933-0.18900.0678原始变量与本组典型变量之间的相关系数.53 V1V2V3V4V5X10.45920.0258-0.0578-0.01780.0035X20.4044-0.10320.02390

29、.00020.0278X30.4171-0.1102-0.01260.0218-0.0192X40.34110.0526-0.02450.04780.0173X50.47650.06290.04630.0107-0.0071 U1U2U3U4U5Y10.41880.01050.0405-0.0093-0.0193Y20.35650.0847-0.0205-0.0255-0.0191Y30.21440.0088-0.0211-0.03860.0238Y40.20880.1872-0.00060.02080.0191Y50.36170.02560.0249-0.03160.0249Y60.4452

30、-0.0571-0.02800.02930.0112Y70.27820.03850.0588-0.01360.0039原始变量与对应组典型变量之间的相关系数.54 可以看出,所有五个表示职业特性的变量与u1有大致相同的相关系数,u1视为形容职业特性的指标。第一对典型变量的第二个成员v1与Y1,Y2,Y5,Y6有较大的相关系数,说明v1主要代表了主管满意度,事业前景满意度,公司地位满意度和工种满意度。而u1和v1之间的相关系数0.5537。.55 Canonical Redundancy Analysis Raw Variance of the VAR Variables Explained b

31、y Their Own The Opposite Canonical Variables Canonical Variables Cumulative Cumulative Proportion Proportion Proportion Proportion 1 0.5818 0.5818 0.1784 0.1784 2 0.1080 0.6898 0.0060 0.1844 3 0.0960 0.7858 0.0014 0.1858 40.12230.9081 0.0006 0.1864 5 0.0919 1.0000 0.0003 0.1867 Raw Variance of the W

32、ITH Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Cumulative Cumulative Proportion Proportion Proportion Proportion 1 0.3721 0.3721 0.1141 0.1141 2 0.1222 0.4943 0.0068 0.1209 3 0.0740 0.5683 0.0011 0.1220 40.12890.6972 0.0007 0.1226 5 0.1058 0.8030 0.0003 0.1

33、230.56u1和v1解释的本组原始变量的比率:X组的原始变量被u1到u5解释了100%Y组的原始变量被v1到v5解释了80.3%X组的原始变量被u1到u4解释了90.81%Y组的原始变量被v1到v4解释了69.72%5818.0)85.074.083.0(512221um3721.0)50.065.075.0(712221vn房地产指标典型相关分析报告房地产指标典型相关分析报告 在对房地产指标的典型相关分析中建立了如下的指标体系:X1:开发公司个数(个)X2:年平均职工人数(人)X3:自开始建设至本年底累计完成投资X4:本年完成投资 X5:施工房屋面积(万平方米)Y1:经营总收入 Y2:土地转让收入Y3:商品房屋销售收入 Y4:房屋出租收入Y5:经营税金及附加 Y6:营业利润Y7:竣工房屋面积(万平方米)Y8:竣工房屋价值(万元)其中,X1-X5是反映房地产投入的变量,Y1-Y8是反映房

展开阅读全文

最近上传DOC

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

黔ICP备20002965号-1  在线客服QQ:365045600

Copyright © 2020-2023 www.xinwenku.com All rights reserved 新文库网 版权所有

收起
展开