绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
导航
万方知识发现服务平台
排序:
范围:
统计学 山西大学 2017(学位年度)
摘要:双标图是一种广泛应用的可视化分析方法,但是当所研究的数据包含较多变量时,如果直接用双标图进行分析会导致图中较多变量重叠,不能很清晰地观察变量间的相关关系,可视化程度较低,分析效果不精确,因此寻找一些能够有效解决一般的多变量数据的统计方法就非常必要.针对上述问题,本文提出了两种增强双标图的可视化的分析方法,第一种是基于聚类分析的双标图分析方法,首先通过对原始数据进行聚类分析,得到新的数据集,然后对得到的新数据集进行双标图分析.另一种方法是基于主成分和聚类分析提出一种新的双标图分析方法.此两种方法不仅保留了数据间的绝大多数信息,而且使得双标图的可视化程度增强.对两种新的双标图方法进行实证分析,并与原始数据构成的双标图进行比较研究,验证了该方法的有效性,最后将两种新的双标图方法推广应用到成分数据上.
  第一章是引言,主要介绍了本文的研究背景,问题的提出及其实际意义,简要说明本文的工作及创新之处,并给出了本文的主要结构.
  第二章是双标图的简介,对双标图的一般模型进行了描述,简单介绍了双标图的基础理论知识,并简单介绍了三种类型的双标图.
  第三章简绍了两种增强双标图可视化的方法.针对多变量数据集,如果直接用双标图进行分析会导致图中较多变量重叠,不能很清晰地观察变量间的相关关系,可视化程度较低,分析效果不精确,故本章提出了两种增强双标图的可视化的分析方法.第一种是基于聚类分析的双标图分析方法,首先对原始数据集进行分类,得到一些新的数据集,然后利用双标图对新的数据集进行分析,分析每类中原始变量与均值变量之间的关系.对新的双标图分析方法进行实例分析,并与原始数据构成的双标图进行比较研究,验证了该方法的有效性.第二种是基于聚类分析和主成分分析的双标图分析方法,首先基于主成分分析和聚类分析,对原始数据集进行分类,得到新的数据集,对新的数据集进行双标图方法进行了实例验证,验证了该方法的有效性.以上两种方法不仅保留了数据间的绝大多数信息,而且使得双标图的可视化程度增强.
  第四章介绍了成分数据双标图的构造步骤及其成分数据的基本理论,将第三章提出的两种方法应用到成分数据中进行实例验证.
  第五章是结论部分.本文对两种增强双标图可视化分析方法进行了总结,发现在多变量数据集条件下,直接利用传统的双标图分析方法存在一些弊端,即可视化可能会降低,而本文提出的这两种增强双标图可视化的分析方法很好的解决了双标图可视化低的问题.本文的目的是希望找到一种既不丢失数据,又能很好的分析多变量数据集的双标图分析方法,使得可视化增强.
统计学 扬州大学 2017(学位年度)
摘要:Gamma分布常用于概率统计模型,它在水文学和气象学、可靠性和生存分析等领域都有广泛的应用。因此,对Gamma分布特别是Gamma分布的参数估计展开研究有着重要意义。本文对现有的Gamma分布的性质和参数估计方法进行总结,并且提出一种新的参数估计方法——参数分离法,最后用MATLAB进行数值模拟,计算三种估计的估计值和均方误差,并在均方误差的准则下,比较这三种估计方法的优劣。
  对于回归,一直以来研究最多的是多元线性回归模型,但在许多实际问题中,响应变量及其期望并不都满足其假定条件,因此常常应用其直接推广的模型,即广义线性模型。其中Gamma回归模型以及Gamma分布好其它指数族分布的混合模型有着广泛的应用,因此本文对Gamma回归展开深入的研究。本文介绍了Gamma回归模型的定义及参数估计,并用两种不同的方法对估计值进行求解,同时证明两种方法的等价性,最后通过具体实例进行分析。
  当对一组观测值进行回归建模时,数据集中可能存在异常点或者强影响点,可能导致建立的回归模型与实际不相吻合,或者得到错误的结论,因此识别数据集中的异常点或强影响点是数据分析的一个重要任务。统计诊断是数据分析的重要组成部分,其主要任务就是检测得到的观测数据是否满足给定的假设条件和既定模型(postulated model),并通过计算和比较诊断统计量的值,找出不满足条件的数据点,即异常点或强影响点。本文介绍了最基本的统计诊断模型——数据删除模型(Case-Deletion Model,并简记为CDM)。本文首先给出Gamma回归模型的数据删除模型的定义,并对数据删除模型的回归系数进行估计,求解出回归系数的一阶近似公式;其次介绍几种统计诊断量,如拟合偏差、Cook距离和似然函数等,并给出这几种诊断统计量的计算公式或一阶近似公式;最后用具体实例进行分析,计算各种诊断统计量的值,并通过比较,找出异常点或者强影响点。
统计学 山西大学 2017(学位年度)
摘要:在实际生活众多领域中,经常会收集到大量的缺失数据;尤其是在经济等相关领域中,随着计算机技术的不断发展可获数据的维数越来越高,人们需要处理的数据都是大量的高维数据.维数的增加就会伴随着数据的缺失,那么传统的统计分析方法就不再适合.于是,如何在数据缺失且维数较高的情况下,进行更为有效地统计推断也引起了很多统计学者的关注.
  成分数据主要用来研究的是构成某个整体的各部分之间的比重,一般解决成分数据的方法是将单形空间上的成分数据转换为欧氏空间上的普通数据,再进一步对普通数据进行统计分析.当成分数据在变换过程中,由于一些主客观等原因会导致成分数据中含有大量的缺失值.如何对成分数据中的缺失数据进行插补,得到完整的数据集是成分数据统计分析研究的首要任务.本文引入一个新的插补方法来处理高维成分数据,并对新的方法进行模拟和实证分析,再与MEAN插补法、knn插补法、ILSR插补法和ILTSR插补法进行比较研究.
  本文主要研究的是如何处理缺失数据并进行变量选择,包括以下几个工作:
  (1)了解数据缺失机制和缺失模式;
  (2)研究处理缺失数据的常用插补方法;
  (3)提出基于LASSO方法的缺失数据的处理方法;
  (4)通过模拟研究和实例分析对各种方法的插补效果进行比较分析,分析各方法的优劣和适用范围;
  (5)归纳总结缺失数据的插补效果的优劣.
统计学 山西大学 2017(学位年度)
摘要:随着大数据时代的到来,数据的缺失时许多实验和调查研究中普遍存在的问题.有许多原因会导致数据的缺失,例如调查过程中的无响应和数据收集过程中的失误等.数据的缺失会影响统计数据的质量,增加数据分析过程的复杂性,导致结果出现误差,从而降低统计工作的效率.
  成分数据是一类被广泛应用于地质学,社会结构和经济发展等方面的多维复杂数据,主要研究构成某个整体的各部分之间的比例.由于成分数据被其特殊的几何性质即“正则性”和“定和性”所限制,传统的缺失值填补方法不能直接应用于这类型的数据,因此本文提出了基于修正核函数和随机森林模型的两种处理成分数据中含有缺失值的方法,并利用相应的模拟实验和实例分析验证新方法的有效性.
  第一章介绍本文的选题背景以及数据缺失处理方法的国内外现状;
  第二章给出了成分数据的定义及其运算,对现有的成分数据缺失值填补法进行回顾;
  第三章针对单形空间中参数的难以估计问题,提出了基于两种修正核函数的成分数据缺失值填补法并通过实例分析和模拟实验验证该方法的准确性;
  第四章针对高维数据提出了基于随机森林的成分数据缺失值填补法,通过实例分析和模拟实验验证该方法的准确性;
  第五章总结概况本文的研究工作和结果,提出不足之处和待以解决的问题.
统计学 江西财经大学 2017(学位年度)
摘要:统计数据显示,江西省全省共有4500多万人口,其中农村人口有2200多万,总共占全省人口的49%。江西省共有70个县(市),其中国家级贫困县有21个,人口多达1200多万,占全省人口的近27%。江西省有4个县享有国家级贫困县帮扶政策,在扶贫的道路上任重而道远。逐步缓解并消除农村贫困是省政府面临的重大挑战,政府在制定相关政策时主要围绕如何消除农村贫困问题展开。消除农村贫困的前提是要精准识别江西省农村的贫困现状。本文构建了一套具有科学性、可比性且适用于江西省的贫困线计算方法,该方法较好地测算出了江西省农村贫困的广度指数、深度指数与强度指数。通过以上的贫困测度方法,分析出了江西省农村居民贫困的原因,为农村反贫困政策的制订提供科学依据。
  贫困线是识别和分析贫困的起点,目前,贫困线的测度方法主要有市场菜篮子法、恩格尔系数法、马丁法、国际贫困标准法和扩展线性支出系统法等。本文基于江西省农村贫困的背景并且结合了相关学者在贫困方向的研究,探讨了贫困的内涵、分类以及测算的方法。运用最低营养法结合江西省农产品的价格和农村居民的消费结构对江西省农村食物贫困线进行了调整,根据CFPS数据通过马丁法来测算出贫困线、计算居民的贫困指数来反映出江西省农村贫困的具体情况。对比全国标准和国际标准测算出来的贫困指数,发现在全国统一贫困标准下测算出的贫困指数普遍偏低,贫困人口数量是江西省标准下测算出人口的四分之一左右,贫困缺口率和平方贫困距的数值都很小,会低估江西省贫困现状。而使用国际统一的一天1.5美元的标准前期对江西省贫困人口的识别相差不大,但是随着后期生活水平的提高,此标准也逐渐不能用于精确的识别贫困人口。对比这三条贫困线,使用马丁法测算出的标准线是基于江西省的实际情况,更具有实践意义。而如果一直使用全国统一的标准会极大的低估江西省农村贫困人口、贫困深度和贫困广度,非常不符合江西省的实际情况,不利于政府进行扶贫工作的开展。
  贫困测度的目的有助于识别贫困、监控贫困、获取贫困特征,进而引起公众的注意,并为反贫困政策的制订提供理论依据。故依照地区的消费结构和物价水平来构建合适的贫困线十分重要,本文的研究有助于社会各阶层认识和理解江西省农村的贫困人口,为构建和谐社会的可持续发展提供相关理论依据。
农业经济管理 华中农业大学 2017(学位年度)
摘要:中国是农业大国,虽然农业产值占GDP的比重不到10%,但农业就业人口仍占到了总就业人口的28.3%,农业仍旧是国民经济和社会发展的基础。在科学研究中,农业经济以及农业管理的研究仍是必要和重要的,而这些农业经济管理研究很多都需要开展农业经济调查以获取数据,然后在数据分析的基础上得到结论。
  跟任何调查一样,农业经济调查会遇到一个几乎无可避免的问题:缺失值,农户的无回答或者调查人员的疏忽都会让农业经济调查数据产生缺失值。但跟其它调查,如市场调查、民意调查不同的是,农业经济调查有很强的特殊性,比如农业经济调查仍使用古老的人员访问方法、调查问卷中存在大量的开放性问题、能获得较多辅助信息、随机性不高但农户调查配合度较高等等。
  结合农业经济调查的特点和数据缺失的原因,提出本研究特定的假设条件:调查数据来自一个正态总体;调查数据是随机获得的;变量类型以数量变量为主;数据的缺失模式是单一缺失和一般缺失;数据的缺失机制是完全随机缺失(MCAR)和随机缺失(MAR)。基于这些基本假设,本研究提出了农业经济调查数据的缺失值处理构建一套较系统的模型和方法。这套模型其实是一个完整的逻辑体系,但为了叙述方便分成三部分:删除模型、单一插补模型和多重插补模型,每一个模型又包括很多具体的方法。
  本研究的基本逻辑是,根据假设和条件提出一个模型,在这个模型中提出基本方法,利用理论分析和模拟分析其缺陷,然后改进提出新的方法;如果假设和条件改变,又使用新的模型,为新的模型寻求方法并分析改进。
  删除是缺失值处理的最基础模型。大部分农业经济调查人员都采取该模型将缺失值当作无效数据删除,大部分的数据分析软件也默认删除缺失值。删除一般是指成列删除,也就是删除所有含缺失值的个案,留下完整数据。当数据的缺失比重很低时,删除缺失值倒也无所谓,但是当数据缺失比重较大或者变量很多时,就会导致大量个案被删除。本文用不同的缺失比例模拟随机产生农业经济调查缺失数据,分析发现当变量很少时,缺失比重略高一点删除比例也不会太高,但当变量稍微多一点,哪怕很小的缺失比重都致使大量的数据被删除。
  一个可供替代的删除方法是,如果我们不需要完整数据,只要使用可用的个案计算参数估计,这样就可以尽量减少数据删除,这就是成对删除。但成对删除会让估计量来自不同大小的样本,造成很多参数估计麻烦。此外本文的模拟分析发现,其实成对删除在对缺失农业经济调查的相关关系估计上并没有显著超过成列删除。
  当数据不是完全随机缺失(MCAR)时,无论是成列删除还是成对删除都会产生有偏的估计。可以利用辅助信息将目标缺失变量分层,根据各层的完整观测数据计算各层均值,然后再将各层均值以缺失概率作权数加权平均,这样就可以一定程度上弥补成列删除估计的有偏性,这就是加权调整的方法。本文通过模拟生成随机缺失(MAR)下的目标缺失变量和与之正相关的辅助变量,然后加权调整方法的获得的均值估计非常接近真值,而成列删除的均值估计明显偏小。
  用删除方法删掉的数据信息也许是有用的,再者对农业经济调查数据因为缺失值的存在而粗暴地删除,从心理上也是难以接受的,对数据的缺失值进行插补也许是一种更好的模型。插补分为单一插补和多重插补,前者指为缺失值提供单一插补值,后者是指对每一个缺失值,其插补值不止一个。插补的基本思想是根据数据的后验分布,用数据的观测部分为缺失部分提供合理的填补值。
  简单均值插补是将目标缺失变量的观测部分的均值作为缺失值的插补,是最先能想到的单一插补方法。但简单均值插补的插补值完全集中于数据的中心位置,通过理论分析容易发现其显著低估了总体方差。一个解决方法是在其基础上加上随机误差项,这就是随机均值插补。进一步本文还做了一个模拟研究,那就是模拟产生变量正相关的农业经济调查缺失数据进行均值插补,最后发现其相关系数矩阵和协方差矩阵中的值明显小于真实相关系数矩阵和协方差矩阵的值。但无论是简单均值插补还是随机均值插补在数据非完全随机(MCAR)的情况下,估计都是有偏的。分层均值插补可以修正这个问题,分层均值插补是指将目标缺失变量按照辅助信息分层,然后再各层中进行均值插补,这样其估计是无偏的。
  分层均值插补虽然解决了一般均值插补的估计有偏问题,但插补值仍过于集中,回归插补可以解决这个问题。简单回归插补是指根据农业经济调查缺失数据的后验分布,利用数据的观测部分产生缺失部分的回归预测值,通过理论分析发现其对总体方差的估计仍偏小,可以加上随机残差项,这就是随机回归插补。将回归插补和均值插补对比模拟研究显示,回归插补是一个比均值插补更好的方法,尤其是随机回归插补有很好的插补效果,而简单均值插补是最不被推荐的。
  如果农业经济调查缺失数据没有明显的后验分布,热平台插补方法会是更好的选择。热平台方法直接从数据的完整部分产生缺失部分的插补值,其插补值一般比较稳健,不用担心像回归插补一样产生异常的插补值。一个简单的热平台插补是从完整观测数据中简单随机抽样产生插补值,这就是简单随机插补。如果数据是随机缺失(MAR)的一个更好的方法是利用辅助信息将目标缺失变量分层,然后在各层的完整观测数据中随机产生该层的插补值,这就是分层随机插补。热平台插补还有一个很有效率的方法,就是利用辅助变量,找到缺失值最接近的观测值作为自己的插补值,这就是最近距离方法。本文的一个针对热平台插补和均值插补、回归插补进行对比的模拟分析发现,在完全随机缺失(MCAR)下,基于热平台的随机插补效果显著好于均值插补,但可能比回归插补略差。
  根据单一插补后的数据进行估计检验时,其标准误差常常是被低估的,多重插补是解决这个问题的最有效的模型。多重插补的基本思想是,对同一缺失值产生多个插补值,这样就产生多个“完整”数据,然后对每一个“完整”数据估计检验,最后将其汇总成一个总的估计检验结果。
  基于单一缺失的一元正态模型仍然利用回归插补产生插补值,但其从两个角度让缺失值的不同插补值差异加大,一是跟回归插补一样在插补值中加入残差项,二是让每一次插补的回归模型参数随机产生。回归模型参数的随机产生方法有两个,一是根据回归模型参数的后验分布随机产生模型参数,这就是贝叶斯方法;二是用数据的Bootstrap样本来产生模型参数,这就是Bootstrap方法。本文首先研究分析了这两个方法的假设和理论,然后为了比较这两个方法的应用效果,在完全随机缺失的假设下模拟产生缺失数据,然后分别用贝叶斯法和Bootstrap法进行插补,并跟单一插补进行比较,结果发现无论是贝叶斯法还是Bootstrap方法,都有很好的估计检验效果,其估计的准确性显著超过单一插补。
  多元正态模型是基于一般缺失模式的农业经济调查缺失数据的插补。多元正态模型,由于其缺失模式的复杂性,为缺失值的插补提出了更大的挑战。本文研究了其中最为广泛应用的联合分布方法以及条件分布方法的假设和理论。更进一步本文模拟了一个多变量随机缺失的农业经济调查数据,然后运用这两个方法进行插补,结果显示两者都有很好的估计检验效果,而且两者之间差异并不大,都是很好的方法。
  在理论和模拟分析的基础上,本文对一个实际农业经济调查缺失数据进行了应用分析并取得较好的效果。通过实际应用分析可以得到一个基本的结论,那就是如果数据基本符合缺失值处理模型的假设,多重插补优于单一插补,而单一插补又优于删除;如果不符合假设,比如出现极端值,那么基于明确后验分布的缺失值插补效果会大打折扣,而此时基于热平台的插补方法会得到更稳健的结果。
  基于本研究,为农业经济管理研究人员在缺失值处理前和缺失值处理中两个阶段分别给出了一定的具体建议。在缺失值处理前建议:调查前通过良好的问卷设计减少缺失值产生;调查中与通过农户良好的沟通减少缺失值产生;及时处理无意义值,以免跟缺失值混淆;不要用不科学的方法消除缺失值。在缺失值处理中建议:正视缺失值问题;尽量不要删除缺失值;善于利用分类变量处理缺失值;插补缺失值前对缺失数据进行描述考察;单一插补时选择回归插补;在数据一般缺失时使用多重插补。
  本研究可能的创新有:
  (1)本文率先关注了农业经济调查数据的缺失值处理问题,并基本厘清其学理。虽然在农业经济调查中缺失值无可避免,但绝大部分农业经济管理研究人员都将其忽略,更鲜有人对其系统研究,使得该领域的研究特别是国内研究基本空白,这也是作者开启这项研究的重要原因。
  (2)本文专门针对中国农业经济调查的特点模拟缺失数据进行分析,具有一定创新性和开创性。本文针对中国农业经济调查数据的缺失值处理,提出了一整套具体而又可行的模型和方法体系,为了分析这些方法的可行性和使用条件,并对不同模型和方法的效果进行比较,采用了理论分析和模拟分析。而其中的很多模拟分析针对中国农业经济调查特点、缺失模式、缺失机制进行了专门的设计。
  (3)本文为农业经济调查数据中缺失值实际处理和应用自编了一套具体的基于R软件的程序代码,并用于实际案例应用分析,效果较好。该语言程序包括农业经济调查缺失数据的预分析、缺失值的处理和处理结果的定量分析。实际案例的处理结果显示,对于基本达到假设条件的农业经济调查缺失数据,本套语言程序能达到较好的缺失值处理效果。
应用统计学 河北经贸大学 2017(学位年度)
摘要:自2012年以来,“大数据”一词越来越多地出现在人们的生活、工作和学习中。IBM公司曾进行过一项研究,研究结果显示从古至今我们人类世界的全部数据中有90%都产生于过去的两年,并且预计2020年后全人类范畴的数据量可能会达到目前数据量的44倍。在大量数据产生及扩展的过程中不完备数据的出现是不可避免的,而不完备数据中的缺失值又往往会对数据的可利用性产生重大的影响。
  网络购物平台的评价系统在收集大量不完备数据上起到了很大的作用。假如所有消费者均对自己所购买到的商品进行了评价,该网络购物平台的评分系统就能够将所有评分数据收集成一个含有大量缺失值的矩阵,我们称之为“稀疏矩阵”。如果一些消费者购买了商品,却没有对商品进行评价,则会提高该稀疏矩阵的缺失率。本文根据网络购物平台评分系统和美国Netflix在线影片租赁公司影片评价系统得到的数据结构为依据,联系当前随着大数据不断发展而扩增的实践调查数据,不难发现,以往简单的小型抽样调查已经不能满足当今社会对实践调查的要求,因此无论在问卷大小还是在样本量多少上,都需要有新的突破。
  针对含有大量问题的问卷调查,以往的做法通常是给予被调查者一定的奖励或回馈以获得被调查者的配合,该方法不但在人力、物力及财力上需要一定的保障,而且并不能保证问卷数据的质量。本文运用问卷分割法将调查中的大型问卷按照题量及问题之间的关联性分割为多个小型问卷,在调查过程中每个被调查者从中随机抽取特定数量的小型问卷进行作答,在保证样本量的前提下,收集并整理调查数据,最终会得到一个含有大量缺失值的稀疏矩阵。进而运用缺失值插补的方式对稀疏矩阵进行插补,以获到完整的研究数据。本文通过对一般数据插补方法、稀疏矩阵数据插补方法和大型问卷缺失数据插补方法的对照,采取随机数插补和多项逻辑模型插补两种插补方式,通过对插补成效的对照分析,得出相应的结论。
  由于人力及时间的限制,本文数据来自于R-Studio软件的模拟。首先,运用R-Studio软件生成模拟数据,由于每位被调查者回答的数据均以“单元”为单位,因此在进行数据缺失的过程中要实现成块缺失,即单元缺失,最终的稀疏矩阵中每个被调查者都回答了特定单元数的问题;其次,利用不同被调查者共同回答的问题作为铆题,计算不同被调查者在回答同一问题时的关联性,进而利用该关联性对其他未回答数据进行插补;最后,利用插补所得的数据与原始数据进行对比,验证问卷分割法及本文所用插补方式的可行性和准确性。
  由于本文数据采用R-Studio软件模拟生成,因此在理论上具有一定的理想化假设,虽然每个被调查者回答问卷的单元数可以在调查过程中进行人为的控制,但被调查者回答每个单元的问题数据需假设为内部无缺失,即整个数据矩阵只有“单元”缺失,没有个别缺失。
  全文包括五章的内容。第一章,介绍了文章的根本内容,包括选题背景和研究目的、文献综述、研究方法及论文创新之处;第二章,是缺失数据的处理方法简介,阐述了近年来学者们研究缺失数据插补时所用到的方法及其简单概念;第三章,作为本文的核心内容,从易到难、从数据的生成到缺失,再到插补,具体介绍了大型问卷分割法及缺失数据插补方法,并将完成插补的数据与原始数据进行比较;第四章,运用第三章研究的内容及R-Studio软件生成的大型稀疏矩阵进行进一步的分析,验证本文理论和方法的可行性和准确性;第五章,是对全文的总结以及对本文所研究内容发展前景的展望,同时,对本文的不足之处提出了改进方法。
统计学 山西财经大学 2017(学位年度)
摘要:进入2010年大数据元年来,“大数据”迅速抢占学术研究各领域的制高点。自2015年,政府将“大数据”纳入国家发展的战略高度,与“大数据”相关的发展政策得到不断的施行,由此开创了“十三五”数据中国的建设新局面。在此背景下,作为以数据为研究核心的统计学科在新的发展浪潮中蓄势待发,正经历“大数据+统计”的新变革。变革的目的并不仅仅局限于数据来源的改变,更重要的是与数据相匹配的分析技术的创新。在统计学科中,指数作为重要组成部分,正乘着政策之助力凸显指数在社会、经济发展中的显著优势,实现自身的变革,以使得其本身能够在大数据时代下历久弥新,形成独有的“大数据+指数”的发展体系。
  本文则是以“大数据指数”为研究对象,研究其在“大数据+统计”变革下的自身新突破。本文的研究目的是在传统统计调查指数的基础上,对大数据指数完整分析体系进行构建;并在研究目的的基础上阐述了本文的研究内容:首先是大数据指数的内涵式界定,是从大数据指数的本质出发,包括大数据指数的定义、性质及作用等,以及大数据指数的评价、完善以及应用范围等;然后是对大数据指数的编制原则进行理论性总结,对于编制原则,参照传统统计调查指数的编制原则,将其总结为六步骤:原始数据收集、指标体系构建、数据预处理、基期、权重选择和更新、计算方法和指数调整等;最后对大数据指数的应用进行了研究探讨,主要先从两个角度出发,一是对现有的大数据指数的深度剖析,并将其与传统统计调查指数的编制原则进行了对比,更进一步的尝试性的用大数据指数对传统统计调查指数进行了实证估计;二是对传统统计调查指数的改进性编制,选取了具有代表性的太原煤炭交易价格指数,在其基础上引入了新兴大数据指数,对其进行了大数据性质的改进,以期符合大数据时代对指数发展的新要求。
  通过对以上内容的研究,本文从大数据指数的本质、编制原则和应用对大数据指数编制进行了总结。在本质上,明确了大数据指数的定义、性质、作用等;而后对大数据指数的编制原则进行了详细总结;最后在应用上,对大数据指数与传统统计调查指数间的关系进行了分析。在当前形势下,应寻求统计部门获取数据方式的改变,寻求多方合作,促进社会总体数据整合,有效的探索大数据指数与传统统计调查指数的有益结合,从而提高整体社会运行效率。
统计学 浙江工商大学 2017(学位年度)
摘要:面板数据是指一部分个体(个人、家庭、企业或国家等)在一段时期内某个变量的观测值所构成的多维数据集合。面板数据包含了两个现象的观测值,即对于每一个个体有多个时间观测值。从横截面看,面板数据是由若干个体在某一时点构成的截面观测值。从个体看每个个体都是一个时间序列。时间序列数据和横截面数据是面板数据的特殊形式,它们仅仅是一维的。面板数据有时被认为是带有时间观测的横截面数据或者是混合的横截面时间序列数据。通过使用面板数据,经济学中的实证研究得到了极大的丰富。随着可用的面板数据的增加,面板数据的理论和应用在近年来变得更加流行。
  面板数据集分析具有优于纯截面数据或时间序列数据集的各种优点,面板数据能够获得从不同环境采样的不同单元的个体特征,其中持久的个体特征是它的异质性,其中大部分是不可观测的。面板数据为研究者提供了灵活的方法来模拟横截面单位的异质性和可能随时间变化的结构。
  研究的模型是半参数模型,半参数模型结合了非参数模型的灵活性和线性模型的简洁性。半参数模型在经济学、生物学和医学领域的研究中有着广泛的应用。本学位论文研究带固定效应面板数据半参数模型的经验似然问题,主要运用Owen(1988,1990)提出的经验似然方法,经验似然方法在构造未知参数的置信区间(区域)有着很多突出的优点,如经验似然区域的形状完全有样本决定,Bartlett纠偏性,区域保持性和变换不变性等。因此,经验似然方法受到了许多统计学家和经济学家的广泛关注,许多研究者把经验似然方法应用到各种统计模型和领域。对于高维线性模型,Tang和Leng(2010),Leng和Tang(2012)建议惩罚经验似然进行变量选择和参数估计,并显示惩罚经验似然具有oracle特征。具体内容如下:
  第一章是引言,首先阐述了本文的研究背景和研究意义,分别从模型,问题的角度论证选题的合理性和可行性。其次对有关半参数面板数据模型的研究现状进行了梳理和总结。最后介绍了本论文的研究内容,概括了本论文的研究方法,研究内容和主要创新点。
  第二章,研究带固定效应部分线性面板数据模型的参数估计,为了解决组内相关性,应用块经验似然方法,并构造了未知参数的置信域。证明了调整的经验对数似然比函数在真参数点时是渐近卡方分布的。并且利用块经验似然比率函数,参数的最大经验似然估计被定义和正太逼近被显示。同时,模拟研究表明经验似然方法优于正态逼近方法。并且利用CD4数据也能实际验证建议的方法更合适。
  第三章,考虑带固定效应面板数据部分线性误差变量模型的统计推断,专注于一些协变量为附加误差情况下,提出了一个修正的剖面最小二乘估计参数和非参数部分,参数部分的渐近正态性和非参数部分的收敛速度被建立。一致估计的误差方差也被估计。此外,介绍剖面似然比(PLR)检验并证明它在原假设条件下是一个渐进的卡方分布。进行模拟研究,证明了所提出的方法更优于不考虑误差变量情况下的估计。也用英国联邦的气候数据验证建议的方法更合适。
  第四章,对于带固定效应面板数据的高维部分线性误差变量模型,当误差方差为已知和未知情形下。在这一章,建议一个修正的回归参数和最大经验似然比率回归参数。同时,依据惩罚经验似然方法,这个模型的参数估计和变量选择被调查,这个建议的惩罚经验似然被证明具有神特征。同时,建议的惩罚经验似然比率统计在原假设下具有渐近卡方分布,其结果可以用来构造未知参数的置信域。模拟和实证结果用来评估经验似然方法的性能。
  第五章,考虑带固定效应面板数据的半变系数模型的经验似然,提出了在协变量是α-混合下情形下,未知参数的经验对数似然比统计量,证明了建议的对数似然比统计量是渐近卡方分布的,也获得参数的最大似然估计量和证明在合适条件是渐近正态的。由此,未知参数两个不同的渐近正确覆盖率的置信域被构造。模拟和实证结果用来评估经验似然方法的性能。
  第六章,研究带固定效应面板数据部分线性时变系数模型的经验似然,提出了在协变量是α-混合下情形下,未知参数的经验对数似然比统计量,证明了建议的对数似然比统计量是渐近标准卡方分布的,一个模拟表明对比正态逼近方法,建议的方法比正态逼近方法在概率覆盖率方面表现的更好。
  第七章,简单总结全文的研究工作和主要的创新点,并指出需要进一步完善和深入研究的问题。
应用统计 首都经济贸易大学 2017(学位年度)
摘要:随着经济的发展,人们最基本的关于衣食住行的需求已经得到解决,在生活质量不断提高的同时,幸福感的提升显得尤为重要。早在上世纪五十年代,学者们就提出,以“幸福指数”作为度量幸福感的主要指标,将虚无缥缈的“幸福感”量化。目前对于“幸福感”和“幸福指数”的研究,多集中在经济学、心理学领域,以传统的方法分析人们的幸福感受及其来由,而本文利用首都经济贸易大学持续多年的调查数据,对北京市城镇居民的幸福指数进行了研究,以数据说话,希望能为“幸福指数”的研究,提供一些统计学的思路。
  本文使用北京市城镇居民2006年至2013年关于幸福指数的数据,在已有对幸福指数研究的基础上,分析幸福指数历年的发展趋势,以便厘清幸福指数的发展规律。针对已有研究中存在的“经济因素是否影响幸福指数”的争论,本文运用方差分析、相关性检验等统计学方法,建立分层线性模型、结构方程模型,完全从数据的角度对幸福指数的影响因素进行分析,希望能为这一争议的解决提供一些依据。
  本文在统计学分析的基础上,得出以下结论:对于北京市城镇居民而言,一方面,在本文所选取的众多因素中,身心健康满意度对幸福指数具有最显著的影响,身心健康满意度受身体健康程度、年龄等因素的正向作用,进而影响幸福指数。另一方面,物质生活、个人价值、人际关系、家庭生活等满意度对幸福指数也有显著的影响。全面关注个体状况与社会状况因素,对于提高人们的幸福感有重要意义。第三,幸福指数的影响因子之间存在内在关联性,影响幸福指数的多个拓展因素之间并非是相互独立的。
应用统计学 华中师范大学 2017(学位年度)
摘要:近年来,对研究对象的分类问题已经在多个研究领域得到了广泛的应用,分类的方法也得到了巨大的发展,如聚类分析、KNN算法、决策树、支持向量机等等。本文以研究实际通讯数据的社群分类问题出发,提出了一种PageRank算法和SimRank算法相结合的新的分类方法。在两个实际案例中得到实践,并将结果分别与真实情况和传统聚类方法结果进行了比较,整体效果和结果解释均较为理想。
  本文提出的方法适用于研究任意对象与对象之间的关系。先将问题转化为一个简单而直观的点边结构图模型,通过PageRank算法计算状态点在整个图中的“重要性”,通过SimRank算法测量对象之间结构上的相似性,根据它们与其他对象的关系,有效地进行分类。本文的基本思想是“两个对象是相似的,则与他们相关的对象应相似。”
  本文的研究可以视为无监督学习(无指导学习)的实践和探索。
应用统计 重庆大学 2017(学位年度)
摘要:聚类分析作为数据分析和数据挖掘中的一种重要方法,已经被广泛应用于市场分析、金融分析、图像处理等行业。作为一种无监督的统计学习方法,聚类在对无序和无先验信息的对象处理中意义重大。特别是在大数据时代,数据有着数据量大及价值密度低的特点,聚类分析就显得日益重要了。聚类分析发展比较迅速,算法比较丰富。聚类融合算法从A.L.Fred和A.Strel提出以来,由于其比一般的聚类方法有更好的特性,深受到人们的重视。在移动互联网的快速发展中,手机应用软件(App)变的数目众多,而质量却参差不齐。对App进行市场细分就显得日益迫切。
  本文主要在K-means加权聚类和K-means加权聚类融合算法的基础上,结合实际数据的结构特点,根据聚类在不同阶段聚类对变量的敏感程度不同,建立了一种分阶段的 K-means加权聚类融合的方法。该模型在加权聚类的权值不能准确量化的情况下,模型聚类效果较好。然后选取2016年1月1日至2016年12月31日的App的数据,对数据进行清洗变换,形成能够代表App价值的截面数据。再根据App数据的特点,利用相关性分析,选择出表现App的接触能力变量平均规模、复合增长率等变量。最后使用传统的K-means、K-means加权聚类和聚类融合的方法以及改进的分阶段聚类方法对App数据进行模拟,对其分类结构进行评价,从而得出改进的模型分类效果较好。然后根据分类结果提取出六大类型特征。最后根据六种特征提出它们的应用场景和进一步研究的方向的建议。
统计学 浙江工商大学 2017(学位年度)
摘要:相关性分析是研究数据之间关系的一种方法,是变量随机分析的一个重要课题,而相关性分析的结果能够为发掘数据背后的信息提供有力地支持。从应用角度来看,现在金融保险等领域的投资风控、信贷评估,网络及APP领域的信息推送等等均和相关性分析有着紧密联系。早先学者们对相关性进行了研究,提出了许多度量变量相关性的方法,但这些相关性研究主要关注变量之间相关程度的分析,而对于变量之间相关模式的识别与研究并不是很重视。现有的一些相关系数,如Pearson相关系数,能对变量间的相关关系进行度量但不能对变量的相关模式进行识别,另一些相关系数,如Kendall相关系数、Spearman相关系数等,虽然可以一定程度上反映变量之间的相关关系,但仅仅片面地刻画了变量之间的相关结构。
  数据时代的到来给变量之间的相关性研究带来了挑战。从理论上来看,多个变量之间的相关性关系非常复杂,对于高维的数据更是如此。随着研究的深入,有学者发现原有的一些研究假设并不成立,这些不恰当的假设可能会导致严重的后果。本文受许冰(2010)路径设计的启发,并借鉴近来的一些研究成果,通过构建路径模型体系,综合考察变量间的相关模式及相关性的度量,进而对变量进行路径相关性分析,为变量间的相关性分析提供一种新的方法。
  本文使用Li and Racine(2004)的非参数变量筛选方法,对有关变量进行了分类;基于变量筛选结果构建非参数路径模型体系,分析变量间的整体效应、直接效应和间接效应。发现:(1)不管是在基准模型还是路径模型中,非线性分量的占比大于线性分量的占比,线性分量的波动大于非线性分量的波动,且非线性变量在模型中占主导地位;(2)单路径变量中用电量的整体效应最大,双路径变量中用电量和已用授信额度的整体效应最大;(3)用基准模型的外推精度取代变量间的因果分析,对具体数据进行了模拟分析。
应用统计学 浙江工商大学 2017(学位年度)
摘要:随着城市化进程的加快和社会经济快速发展,很多城市盲目发展和建设,城市资源利用效率低下,导致土地浪费现象突出、淡水和能源资源紧张、环境污染严重、生态系统严重退化、交通拥堵日益严重等城市危机险象频生。而城市承载力的大小严重关系到城市能否持续健康的发展,人们能否享受更高的生活质量。因此,人们迫切希望寻求一种切实有效的模型对城市承载力进行预测,进而对人们的生活和政府的规划进行有效的指导。
  由此本文将城市水资源、土地资源、交通和大气环境作为研究的重点对象,结合统计年鉴和水资源公报等发掘已有的城市数据,分别构建城市水资源承载力评价指标、土地资源承载力评价指标、交通承载力评价指标、大气环境承载力评价指标和综合承载力评价指标,以期为解决城市在快速发展的同时衍生出的诸多问题提供方向。此外,为了较全面展现我国中心城市目前的城市承载力发展状况,本文基于选取的评价指标,选择了京津冀、长三角、珠三角等重要区域及直辖市、省会城市和计划单列市共64个城市来研究其承载力现状。研究发现:2014年度,我国城市综合承载力普遍较差。具体来说,逾50%的城市水资源承载力处于预警甚至危机的状态;逾56%的城市的土地资源承载力处于危机状态;80%左右的城市交通承载力极其脆弱;空气质量达优的城市仅有一个,占1.56%。这一切都表明:我国城市的城市承载力已经受到了严重的挑战,人们的正常生活和社会的健康发展已经受到了严重的影响。
  本文针对这一现象,以基于有限数据的机器学习方法——支持向量机(Support Vector Machine,SVM),从四个方面的城市承载力历史数值角度出发对未来的相应的城市承载力数值进行预测。起初,分别对这四个承载力单列的时间序列数据进行相空间重构生成时序矩阵,扩大信息量,确定水资源、土地资源、交通和大气环境它们各自的承载力最优嵌入维度分别为4、5、2、6.然后运用支持向量回归模型对时序矩阵中的数据进行建模。鉴于模型结果会因为支持向量回归机参数的选择不同导致结果差异明显,本文依据核函数参数敏感度强于核函数敏感度的理论,采取以下两种方式选择参数来提高支持向量机回归预测模型效果:其一,直接使用支持向量机中默认参数;其二,采用粒子群优化算法(PSO)择优选取惩罚因子与核参数。模型效果对比结果显示PSO-SVM比一般SVM的预测结果更加精确,其实用性更好。
  之后使用PSO-SVM模型对杭州市未来五年的水资源、土地资源、交通承载力以及大气环境承载力进行预测。结果显示未来五年杭州市的综合承载能力呈现下降趋势,水资源和大气环境承载力处于较好的状态,一般将不会对杭州市的发展产生较坏的影响。而土地资源承载力和交通承载力则相对比较低下,最有可能对杭州市未来发展可能造成阻碍。
公共管理 辽宁师范大学 2016(学位年度)
摘要:统计作为国家进行管理而制定一系列科学决策的一项至关重要的基础性工作,它跟生产、生活的方方面面紧密联系在一起,是衡量经济发展的重要指标,也是衡量社会管理水平高低的重要标准,因此统计数据质量的高低,直接对政府、企事业单位等决策主体的决策质量和决策效益产生重大影响。
  改革开放以来,我国经济体制初步实现了从计划经济体制向社会主义市场经济体制的转变。新体制既为统计改革提供了有利的机遇,也向统计工作提出了更高更新的要求。经过多年努力,统计改革已初见成效。但数据质量较差仍是困扰我国当前统计工作的一个重要问题,它严重影响了国家重要决策的科学性和宏观调控的有效性。在新常态下,如何采取有效措施提高统计数据质量已经成为各级统计局研究的重大课题。相比中央和省级政府,基层统计部门既要贯彻执行国家和省的统计方法制度,又担负着数据质量审核的重要职责,是政府统计数据质量管理的重要层次和关键环节。本文运用文献研究、经验启示、定性分析等方法,以大连市甘井子区统计局为例,从该统计局的数据质量管理现状入手进行分析,并对大连市甘井子区统计局概况及数据质量管理特点进行详细介绍,针对基层统计部门管理体制滞后、统计法制不健全、基层基础薄弱、统计制度不完善、统计执法难度大、缺乏对统计工作的高度重视等问题进行原因剖析。随后通过查阅相关资料,以西方发达国家在统计数据质量管理方面取得的成功经验为借鉴,结合大连市甘井子区统计局的现状和特点,有针对性的提出完善各级统计机关的管理制度、优化政府绩效考核评价体系、完善统一规范的统计法律制度、强化统计基层基础工作、强化统计执法力度、提高统计意识、提高统计质量的保障措施等建议,希望能够为提高基层统计数据质量管理水平尽微薄之力,切实提高政府统计部门的公信力。
统计学 暨南大学 2016(学位年度)
摘要:为了在有限调查资源下满足日益增长的统计需求,将相互关联的住户调查项目进行整合,实施一体化设计,已成为各国住户调查体系改革的重要方向。
  在理论方面,本文首先按内容特征和内在逻辑关系将住户调查项目分为基本情况类调查、经济特征类调查和社会特征类调查,依据三者的内在逻辑确定调查的主辅关系,进而确定三类调查的调查方法、调查频率和调查方式等设计内容,为住户调查一体化设计奠定理论基础。其次,从内外部衔接两个方向对住户调查一体化设计进行系统研究:从外部衔接的角度对住户调查、人口普查和行政记录进行整体性设计,建立人口普查和行政记录与住户调查抽样框设计以及更新维护的衔接路径,为住户调查一体化设计确立了外部衔接理论基础。从内部衔接的角度,以满足全部住户调查项目需要的主样本设计为切入点,以设计效应和最终类集为工具,构建多阶段抽样下的复杂样本设计的理论分析框架,分析影响复杂样本估计量设计效应的基本要素,解析其对复杂样本估计量设计效应的影响机理及相互作用机制,建立各种要素的设计效应模型及要素组合的设计效应模型,为主样本设计的分析和选择提供有效的方法路径,为住户调查一体化设计建立了内部衔接理论方法基础。
  在应用方面,在充分利用现行国家调查制度的渠道和机制的基础上,构造出我国住户调查一体化设计的基础框架,对住户调查项目按其调查内容特征和内在逻辑关系进行精简、整合,形成以劳动力调查和住户收支与生活状况调查为核心的住户调查体系,并给出以主样本为主体的我国住户调查的一体化设计思路,其思路和方法可以复制推广到其它调查领域。
公共管理 南昌大学 2016(学位年度)
摘要:尽管学术界有关统计数据质量的研究有了一定的理论基础,各级统计机构也在不断的改进自己的工作制度,但对统计理论界来说,如何使统计理论与统计实践相结合?如何在政府统计的过程中,避免主观上的偏差,提高政府统计数据的抗干扰性,避免统计数据的失真,保障政府统计数据质量,都是一个长期需要不断深化和研究的问题。
  从界定政府统计数据质量的涵义出发,分析了统计数据失真的原因:一是由于统计被调查者法律意识淡薄,企事业负责人个人素质不够高,统计基础设施相对薄弱,加上被调查单位统计人员更换频繁,很难做到专职专做,统计数据的持续性和真实性很难从源头上得到保障;二是地方政府的绩效考核机制和人事任免制度对统计数据的质量产生了比较大的干扰;三是具体统计工作流程中存在的客观上和主观上因素。在借鉴国外发展中国家和发达国家在保障统计数据质量上的经验,提出了对统计数据真实性保障机制完善的几条建议和对策:明确政府统计的独立性,完善统计管理体制;加强统计调查制度的设计,改进统计调查方法;提高统计队伍业务素质,培养综合统计人才;健全统计法律制度,提高统计执法检查的地位;改革现有的政绩观,建立科学合理的绩效考核机制和干部任用制度。
统计学(统计调查与数据分析) 暨南大学 2016(学位年度)
摘要:本文在总结现有模型辅助估计方法的基础上,发现基于线性模型的估计量和非参数回归估计方法都有相应的不足之处。本文通过构造一种半参数超总体模型,同时结合广义差分估计思想提出一种新型的模型辅助估计量来尽量弥补上述估计量相应的缺陷。该估计量比传统的非参数和半参数回归估计利用更少、更易得到的辅助信息,即只需利用和广义回归估计相同的辅助信息,并且依据的超总体模型具有一般性。
  从理论上证明了该估计量是渐近设计无偏和设计一致的,其渐近设计均方误差为广义差分估计量的方差。模拟结果显示:其至少与广义回归估计一样好;对于线性程度越低的超总体模型,其估计精度比广义回归估计有越明显的提高;就本文模拟而言,光滑参数在0.04~0.12间适当取值时其会取到相对较好的估计效果。同时,实际数据的验证也显示出该估计量至少与广义回归估计一样好,并在“收入-预期寿命”数据组中的估计效果显著优于广义回归估计。最后,把提出的估计方法推广到异方差超总体模型情况、多个辅助变量情况以及二阶抽样设计情况,其中在二阶抽样设计中三种辅助信息情形下进行推广。
统计学 湘潭大学 2016(学位年度)
摘要:信息时代的我们经历过计算机技术的发展,感受互联网互联网的神奇,也享受着云计算和物联网带来的优质便捷的生活体验,如今大数据已经悄然来临,这必然又是一次颠覆人们生活习性和理念的变革。大数据包含着数量巨大的信息,它是多样的,它需要更加快速的处理和应对技术,同时还兼具真实性和价值密度低等特点。大数据给我们带来了重大影响,也带给了我们很多技术和思维挑战而政府作为一个特殊的信息服务主体,掌握着大量的数据信息,毫无疑问,大数据也给政府的信息资源服务提出了新的挑战,面对时代的变革,政府信息资源服务质量也需要不断提升。
  首先,本文分析和整理了与大数据环境和政府信息资源服务相关的理论基础知识。在参考已有的典型SERVQUAL服务质量评价模型的基础上,充分考虑与结合大数据环境下我国政府政府信息资源服务的实际特点,确定首先从5个维度来展开对大数据环境下政府信息资源服务质量的评价,这5个维度分别是有形性、可靠性、反应性、保证性和关怀性。因为政府部门作为服务的主体,有其特殊性所在,如服务内容的公益性与非营利性、服务方式的垄断性和权威性、服务对象的普遍性和服务区域的特定性等特点,加上大数据时代所赋予的政府服务的新的特征和挑战要求,所以这5个维度的指标和一般普通商业组织机构的指标不完全相同,问项也有所区别。
  其次,运用因子分析和主成分分析的方法开发出具有较高信度和高效度的政府信息资源服务质量SERVQUAL评价量表,针对实际问题中不同问项对所在维度的重要性存在差异,对该方法进行改进并提出使用加权差距分析的方法,应用修正差距来计算期望与感知间的差距。
  最后,以国内启动大数据战略的典范有代表性的城市(北京、上海、广州、深圳、贵州、武汉)的政府信息资源服务质量现今状况为实证背景进行实例论证,并且运用结构方程进行拟合,比较传统经典SERVQUAL方法与因子载荷加权SERVQUAL方法优劣。结果表明:加权SERVQUAL具有较高的信度、效度和模型拟合度。由实证分析的结果,以点带面全面深度分析,依据服务差距模型对大数据环境下政府信息资源服务质量的提升和改善提出建议与策略。
应用统计 山西大学 2016(学位年度)
摘要:能力验证(Proficiency Testing,PT),是一项运用实验室间的对比进行鉴定实验室与检验机构能力的项目,同时是认证机构参与国际相互承认协议(Mutual Recog-nition Agreement,MRA)的必要前提,能力验证由中国实验室国家认可委员会(China National Accreditation Boards for Laboratories,CNAL)执行与组织。在能力验证中,为了对实验室的能力评价更加准确,我们需要对数据进行充足的分析,所以统计学方法的充分运用极为重要。在能力验证中,多数机构运用最多的则是传统稳健统计方法,即用数据的Z比分数进行判定。此方法计算简单、容易掌握,但由于该方法是基于数据遵循正态分布假设前提下进行,而实际上并非所有数据都遵循正态分布,同时由于不同的能力验证其最终参试实验室数量及回收周期有所不同,所以传统稳健统计方法在实践的过程中还是会出现一部分问题,导致组织者在直接运用此方法进行结果判定时并不能十分地真实客观。所以,探索更为有效的统计学方法就变得非常重要。目前在能力验证中,已经进行了一些统计学研究方法,有主成分分析方法、非负矩阵分解方法、核密度估计方法和Bootstrap方法等。只是这些方法是否更加合适并不得知,是否存在其他缺陷也没有得到检验,这便需要我们对其进行深入讨论。目前并没有文献对这几种方法进行系统性的检验和总结,本文主要是对这四种方法进行探讨,将这四种方法应用在不同类型的能力验证数据中,并进行对比和分析,找出四种方法的优势和缺陷,最终做出系统性的分析和总结,从而可以用不同的统计学分析方法对应不同的能力验证结果。
  本研究分为四个部分:第一章,主要介绍能力验证相关知识、研究发展的大致情况以及本文具体方法和内容;第二章,主要介绍传统稳健方法、主成分分析方法、非负矩阵分解方法、核密度估计方法和Bootstrap方法的原理;第三章,主要通过四组实例数据对每种统计学方法进行验证;第四章,总结研究成果,提出系统性的分析和总结,从而建立适用于不同能力验证结果分布的统计分析方法。
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部