潜在类别分析原理及实例分析 潜在类别分析原理及实例分析

潜在类别分析原理及实例分析

  • 期刊名字:中国卫生统计
  • 文件大小:849kb
  • 论文作者:曾宪华,肖琳,张岩波
  • 作者单位:山西医科大学公共卫生学院卫生统计教研室,中国疾病预防控制中心
  • 更新时间:2020-09-25
  • 下载次数:
论文简介

中国卫生统计2013年12月第30卷第6期●815●潜在类别分析原理及实例分析*曾宪华'肖琳2张岩波'^|提要]目的介绍潜在类别分析的原理、方法和技术,探讨潜在类别分析在多个二分类反应变量中聚类的应用。方法采用Mplus软件,对太原市青少年吸烟知识的调查问卷进行潜在类别分析。结果3804 名学生总的被分为5个潜在类别,每一类别的人数分别为2879人.367人、248人.234人和76人,各类别的概率分别为0. 757 ,0. 096、0 0655、0. 062和0.020。结论潜在类别分析用于多个二分类反应变量的聚类 有很好的效果。(关键词]潜在类别模型 潜 在聚类分析青少年吸烟潜在类别分析( latent class analysis, LCA)是通过式中πPC表示一个潜类别模型的联合概率,πX为潜在潜在类别模型( latent class model, LCM) ,用内在的潜类别概率,它表示当观察变量局部独立时,潜变量X在在类别变量来解释外显的类别变量之间的关系,使得第t个水平的概率,即从样本中随机选取的观察对象外显变量之间的关系经过潜在类别变量估计后,能够属于潜在类别t的概率。比重较大的潜在类别表示在维持其局部独立性。潜在类别分析的基本假设是,对潜变量中具有较重要的地位,类似于因子分析中解释各外显变量各种反应的概率分布可以由少数互斥的潜变异百分比,各潜在类别的概率总和为1,即:在类别变量来解释,每种类别对各外显变量的反应选E-x =1.00(2)择都有特定的倾向"。潜在类别分析的统计原理建立在概率的多变量分πx为条件概率,表示属于第I个潜在类别的个体析之上。一个潜在类别模型是由一个(或多个)潜在对观察变量A的第i个水平作出反应的概率。对于各潜变量X和多个外显变量Y组成的贝叶斯网,分为两种在类别,由于潜变量的各水平相互独立,因此各外显变类型:潜在类别模型与多层潜在类别模型(hierarchical量的条件概率总和为1,即:latent class model , HLCM)。LCM只包含一个潜在变2πx = 2m啾= EmK =1.00(3)量,HLCM包含两个以上潜在变量。2.参数估计与模型拟合模型基本原理潜在类别模型主要采用最大似然法(maximumlikelihood ,ML)进行参数估计,其迭代过程常用的算法潜在类别模型分析过程包括模型参数化.参数估有EM( expectation- maximization)、.NR( newton Rapson)计、模型识别、拟合优度评价、潜在分类与结果解释等算法。其中EM算法最为常用。等12-5)。模型适配检验方法主要有Pearson检验、似然比卡1.概率参数化方(或称)检验以及信号评价指标(informationLCM的概率参数化( probabilistic parameterization)evaluation criteria) ;其中,AIC准则( akaike information包括两种类型的参数:潜在类别概率( latent class proba-criterion)和BIC准则( bayesian information criterion)bilities)和条件概率( conditional probabilities)。 假设有是LCM选择中使用最为广泛( McCutcheon ,2002)的A、B、C三个外显变量,分别具有1、J、K个水平数,其彼信号评价指标,其均建立于似然比卡方检验基础之上,此之间不相互独立。若存在一具有T个潜类别的潜可用于比较对参数进行不同限制的模型,两者均以越变量X,其不仅可以解释A、B、C三者间的关系,且在小表明适配度越好。Lin与Dayton指出当样本量数以x的每个类别中,能够维持A、B .C这个三个外显变量千计时BIC指标更可靠,否则AIC更佳(6)。的局部独立性,即为潜在类别分析,其数学模型为:3.潜在分类πQC= 2mYmnxπXπx(1)在确定最优模型以后,最后一步就是将各个观察.值分配到适当的潜在类别当中,来说明观察值的后验* :国家自然科学基金资助项目(30972553) ;中国疾病预防控制中心青类别属性,即” 中国煤化工理是依据贝叶斯年基金项目(2009A204)理论,分类概MHCNM HG1.山西医科大学公共卫生学院卫生统计教研室(030001)2.中国疾病预防控制中心Tij=T ^ABCX(4)O通信作者:张岩波. E-mail:yanbozh@ 126. com.中国卫生统计2013年12月第30卷第6期.817●五个潜在类别群体。同理可以知道3804名学生总的较不同类别学生吸烟率以及进行更深人的分析,进而被分为5个类潜在类别,每一类别的人数分别为2879为控制青少年吸烟提供理论依据。人.367人、248 人、234人和76人。LCA在方法和技术上还有提高的空间。首先,局表4潜在类别模型个体分类结果部独立性的这-基本前提假设在实际应用中难以实目分类概率现,需要使用模型设限等方法来满足这一假设。其次,| 2345 6 7 8 Clusterl Cluster2 Cluster3 Cluster4 Clusters常用的最大似然法在LCA中常遇到模型无法识别、只能局部收敛或者边界层解( boundary solution) 等问题。0.000 0.00 0.000 0.212 0.788再者,模型评价指标的精确性受样本量外显变量数目0.000 0.002 0.000 0.516 0.482不同程度的影响,根据不同的指标所判定得到的模型! 1 1112 11 0.001 0.029 0.000 0.608 0.362 4往往不- -致。111112210.001 0.192 0.00 0.795 0.012总之,随着潜在类别分析方法体系的不断发展,我们相信LCA将具有更广泛的应用范围与发展前景。讨本研究实例分析资料中的外显变量为二分类变Principle of Latent Class Analysis and Case Analysis Zeng量,在实际应用中LCA还适用于多分类的类别变量、Xianhua , Xiao Lin, Zhang Yanbo. Health Statistics Department of等级变量的聚类分析,其他测量模型相结合,更可拓展Public Health School, Shanxri Medical University ( 030001 ),至对同时包含离散型和连续型外显变量的资料进行聚Taiyuan类分析。如混合潜在特质模型(mixtureIRTmodel)、[Abstract] Objective To Introduce the principles, methods混合因素模型( mixture factor model)、混合结构方程and techniques of the latent class model to explore the application of latent模型等( mixture SEM)等,拓展了混合数据( mix-modeclass analysis for clssifcation of multiple binary response variables.data)的统计分析方法。Methods Using latent class model and applying Mplus software, we基于研究目的的不同,LCA可分为探索性潜在类gave 3804 adolescents , who came from Taiyuan a classification according to别分析和验证性潜在类别分析。本研究通过潜在类别their knowledge about smoking. Results The population including 3804模型来探讨青少年对烟草广告的认知,对青少年10个individuals is divided into 5 latent classes . and the five classes' number ofadolescents was 2876 ,367 ,248 ,234 and 76 respectively,and the probability问题的作答情况进行潜在聚类,分析时事先未对潜在of the five casses is 0. 757 ,0. 096.0.065 .0. 020 and 0. 062 respectively.类别数进行预设,也未对参数进行特定设限,纯粹由数Conclusion The lalent class analysis has a good efet on cassfication据决定潜在类别模型,并以非设限方式进行参数估计,of multiple binary response variables.属于探索性潜在类别分析。而验证性潜在类别分析在[Key words]Latent class model ( LCM); Latent class分析前先提出一个先验的假设模型,然后与观察数据cluster analysis ; Adolescents smoking进行比对,并利用模型评价指标判断假设模型是否被参考文献接受(”。模型选择是LCA主要方面之一,模型中潜在类别1.张洁婷.焦璨,张敏强.潜在类别分析技术在心理学研究中的应用.心理科学进展,2010,18( 12)1991.1998.越多,Pearson和似然比卡方越小,模型适配性越好,似2. Kaufman L. Rosseeuw PI. Finding groups in data: an introduction to乎潜在类别越多越好。然而,在一般情况下,若多分出cluster analysis. New York : Wiley ,2005.来的潜在类别,其性质与其他潜类的性质差异不大时,3. Hagenaars JA. McCutchcon AL. Applied latent class analysis. New York:这样的分类毫无意义。因此,须综合考虑实际情况和Cambridge University Press .2002.4.邱皓政.潜在类别模型的原理与技术,北京:教育科学出版社.2008.模型适配指标来确定最终的潜在类别数目。目前可用于LCA分析的软件较多,如Latent-5.张岩波.潜变量分析.北京:高等教育出版社,2009.6. Lin TH,Dayton CM. Model selection information criteria for non-nestedGOLD Mplus SAS、LEM、PANMARK等,其各有优缺latent class models. Joumal of Education and Behavioral Statistics .1997 ,点。本研究采用的是Mplus5. 1软件,相比其他软件,22(3) :249 264.Mplus在处理潜在类别模型时,具有程序简单、易于理7.裴磊磊,郭小玲,张岩波,等抑郁症患者单核苷酸多态性(SNPs)分解的优势,尤其在处理不同性质的数据与形态的混合布特征的潜在类别分析.中国生统计,2010 ,27(1):7-10.(责任编辑:刘壮)模型方面是其他软件无法比拟的。在对研究对象聚类分析之后,我们可以进- - 步比中国煤化工MHCNMHG

论文截图
版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。