主成分分析和因子分析有什么区别?

发布于2022-01-13 09:30:22
3个回答
admin
网友回答2022-01-13
1、原理不同: 主成分分析是利用降维线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,使得主成分比原始变量具有某些更优越的性能,从而达到简化系统结构,抓住问题实质的目的。 而因子分析更倾向于从数据出发,描述原始变量的相关关系,是由研究原始变量相关矩阵内部的依赖关系出发,把错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。 2、线性表示方向不同: 主成分分析中是把主成分表示成各变量的线性组合,而因子分析是把变量表示成各公因子的线性组合。 3、假设条件不同: 主成分分析不需要有假设条件;而因子分析需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关。  搜狗问问 4、主成分的数量不同 主成分分析的主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。而因子分析的因子个数需要分析者指定,指定的因子数量不同而结果也不同。 5、应用范围不同 在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法,提取出来的主成分无法清晰的解释其代表的含义。而因子分析就是一种完全的分析方法,可确切的得出公共因子。 参考资料来源:搜狗百科-因子分析 参考资料来源:搜狗百科-主成分分析
admin
网友回答2022-01-13
主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。 因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益。 二、基本思想的异同 (一)共同点 主成分分析法和因子分析法都是用少数的几个变量(因子)来综合反映原始变量(因子)的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85%以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,...,x3,经过坐标变换,将原有的p个相关变量xi作线性变换,每个主成分都是由原有p个变量线性组合得到。在诸多主成分zi中,z1在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度。 聚类分析的基本思想是:采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系[3]。聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。 (二)不同之处 主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有p个变量,实际应用中一般不是找p个主成分,而是找出m(m<p)个主成分就够了,只要这m个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。 因子分析是寻找潜在的起支配作用的因子模型的方法。因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。通过因子分析得来的新变量是对每个原始变量进行内部剖析。因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。因子分析只能解释部分变异,主成分分析能解释所有变异。 聚类分析算法是给定m维空间r中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。 从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。 三、数据标准化的比较 主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1的无量纲数据。而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。在构造因子变量时采用的是主成分分析方法,主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。 聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z分数法。 四、应用中的优缺点比较 (一)主成分分析 1、优点 首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 2、缺点 当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 (二)因子分析 1、优点 第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高。 2、缺点 在计算因子得分时,采用的是最小二乘法,此法有时可能会失效。 (三)聚类分析 1、优点 聚类分析模型的优点就是直观,结论形式简明。 2、缺点 在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
admin
网友回答2022-01-13
主成分分析和因子分析有十大区别: 1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。 因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系) 2.线性表示方向不同 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3.假设条件不同 主成分分析:不需要有假设(assumptions), 因子分析:需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。 4.求解方法不同 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况); 求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。 5.主成分和因子的变化不同 主成分分析:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的; 因子分析:因子不是固定的,可以旋转得到不同的因子。 6.因子数量与主成分的数量 主成分分析:主成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等),实际应用时会根据碎石图提取前几个主要的主成分。 因子分析:因子个数需要分析者指定(SPSS和sas根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同; 7.解释重点不同: 主成分分析:重点在于解释个变量的总方差, 因子分析:则把重点放在解释各变量之间的协方差。 8.算法上的不同: 主成分分析:协方差矩阵的对角元素是变量的方差; 因子分析:所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分) 9.优点不同: 因子分析:对于因子分析,可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势;其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据; 主成分分析: 第一:如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析; 第二:通过计算综合主成分函数得分,对客观经济现象进行科学评价; 第三:它在应用上侧重于信息贡献影响力综合评价。 第四:应用范围广,主成分分析不要求数据来自正态分布总体,其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术,因而凡是涉及多维度问题,都可以应用主成分降维; 10.应用场景不同: 主成分分析: 可以用于系统运营状态做出评估,一般是将多个指标综合成一个变量,即将多维问题降维至一维,这样才能方便排序评估; 此外还可以应用于经济效益、经济发展水平、经济发展竞争力、生活水平、生活质量的评价研究上; 主成分还可以用于和回归分析相结合,进行主成分回归分析,甚至可以利用主成分分析进行挑选变量,选择少数变量再进行进一步的研究。 一般情况下主成分用于探索性分析,很少单独使用,用主成分来分析数据,可以让我们对数据有一个大致的了解。

回到
顶部