绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
导航
万方知识发现服务平台
排序:
范围:
工程管理 山东大学 2016(学位年度)
摘要:深空探测始于人类对于茫茫太空的好奇心,是人类征服茫茫宇宙的实际践行。深空探测科学数据作为深空探测的直接产品,是科学研究和大众科普的主要对象和抓手,科学数据的管理水平直接影响未来的科学产出。我国深空探测以嫦娥工程为标志,获得了巨大的成功,目前已经返回了大量的科学数据。随着我国深空探测任务的逐渐增多,返回的科学数据可能将呈指数级别增长,如何更好的存档并发布数据,完善我国的深空探测科学数据管理系统非常重要。本研究的目的是通过对国际上处于领先地位的美国宇航局(NASA)的PDS系统和欧空局(ESA)的PSA系统进行调研,深入认识深空探测数据的产生与发布各个环节的关键要素及其相互作用关系,从工程管理学角度提出针对我国深空探测数据管理所面临或将要面临的主要问题及相应解决方案。
  本研究在对我国深空探测科学数据管理现状进行详细分析的基础上,发现数据管理方面存在的问题及原因,并对美国NASAPDS系统和欧洲ESA PSA系统进行了全面调研,针对我们目前深空探测科学数据管理存在的不足,在吸取国际管理经验并与我国现状相结合的条件下,从我国深空探测数据的管理原则、标准体系、组织架构、系统的运行和流程管理等角度提出了一系列改进措施:(1)在管理原则方面,提出应重视深空探测科学数据的科学成果产出,遵循科学数据的开放性和服务性原则,并强化数据存档标准化管理和各部门间的协同性;(2)初步设计了科学数据管理系统的标准体系;(3)在组织架构方面,建议我国深空探测科学数据管理系统采用在国家主管部门统一管理下面向不同学科需求的分布式管理系统;(4)在运行管理方面,规范化科学数据存档活动的管理细节,并重视质量评审和专家评阅;(5)建议加强深空探测数据管理专业人才培养和深空探测的社会科普宣传。期望以上措施对于我国未来的探月工程后期任务和首次火星探测任务科学数据管理提供一定的参考和借鉴。
统计学 东南大学 2016(学位年度)
摘要:在许多领域中,观测数据都与空间位置和时间点有关,这类数据被称为时空数据。关于时空数据的统计分析已经应用于经济学,大气科学等领域,具有重大的实用价值。本文基于非参数统计中的B样条方法,结合局部众数回归方法的优势,提出一种新的估计时空模型的非参数方法。该方法不仅有效解决了时空模型背景下对趋势函数的估计问题,而且相较于基于B样条的传统的最小二乘方法,在数据存在异常值或者误差服从重尾分布时,具有明显的优势;若无奇异点且误差分布是正态分布时,局部众数方法的有效性和最小二乘方法一样。此外,在所提出的基于B样条的局部众数回归模型中,应用MEM算法对模型进行模拟,比较了基于B样条的局部众数回归方法与基于B样条的最小二乘方法的优劣,同时将模型应用于实际经济数据,进一步验证了所提出方法的有效性。
控制理论与控制工程 浙江大学;浙江大学信息科学与工程学院 2008(学位年度)
摘要:聚类,作为数据挖掘技术研究的热点之一,受到了越来越多的关注。目前已有很多比较成熟的聚类算法,如K-means、K-medoids、BIRCH、CURE、DBSCAN、STING等。虽然其中有些算法已经得到广泛应用,但由于聚类分析算法对于数据集有诸多限制,所以很难找到适合的方法进行聚类分析。由此,聚类融合算法应运而生。2002年,聚类融合算法一经提出就得到广泛关注。实验证明,该方法能够得到比单一聚类算法更优的结果。但其自身并不成熟,仍存在许多问题,如关键参数设定、“软”“硬”聚类的融合、共识函数的设计及选择等。本文所做工作如下: 1.本文在深入了解聚类融合算法的基础上,重点考察了利用k-means算法产生聚类成员的聚类融合算法中各成员的聚类个数与最终融合质量的关系,并提出了一种改进算法以提高聚类融合的精确度。首先,根据聚类成员之间存在差异度的思想,定义了一种差异度计算公式;其次,通过实验考察各个聚类成员的聚类个数与目标聚类个数的差值对融合结果的影响,制定了加权函数的计算公式。实验数据证明,改进算法在精确度方面优于原算法。 2.电信中客户细分模型多用K-means算法来进行,但该方法在实际应用中存在许多问题:需要专业人员指定聚类个数并对结果做出经验判断、划分结果“过硬”等。本文将聚类融合改进算法引入客户细分中,以某市电信公司小灵通业务数据挖掘为背景,针对客户通话、短信等行为属性特征进行客户细分。过程中使用聚类融合改进算法,能够有效解决上述问题并得出合理的聚类结果,同时通过对Co-association矩阵的分析可以得到每个客户属于某一集群的概率,达到了“软化”划分结果的目的,使数据挖掘更智能化。
控制理论与控制工程 浙江大学;浙江大学信息科学与工程学院 2008(学位年度)
摘要:近年来,数据挖掘技术研究引起了国内外人工智能和数据库领域专家的广泛关注。关联规则的挖掘是其中一个重要的研究方向,在许多商业应用中都取得了十分理想的效果。在电信行业中,随着通信市场竞争的加剧和市场的日益饱和,现有用户的价值提升和消费潜力挖掘己经成为运营商市场经营的首要工作,一种基于关联规则挖掘的新兴营销方式--交叉销售正是适应了这种变化。 本文首先分析了现有的模糊关联规则和正负关联规则挖掘算法的特点和存在的问题,针对不足之处提出改进方法,并提出了一种新的模糊正负关联规则挖掘算法(FPNAR),然后针对算法给出了用于实际电信项目的例子,分析了FPNAR算法在电信行业交叉销售应用的可行性。 本论文主要研究工作概括如下: 首先在数据预处理中,采用了一种基于聚类中心点的模糊离散化方法。该方法主要分两层实现:首先对待离散化数据进行聚类,得出其聚类中心点;然后根据各类中心点确定隶属度函数参数,并通过隶属度函数离散化数据。基于聚类的模糊离散化方法充分利用了数据集的分布特征和分类信息,实现了数据的智能离散化,克服了因人为制定隶属度函数参数错误导致的挖掘结果错误。 其次在建模过程中,在现有的正负关联规则挖掘算法的基础上,本论文采用一种多重最小支持度的方法,有效控制频繁项集和非频繁项集的数量,保证了挖掘规则的数量和算法的效率,并结合最小相关性系数约束,剔除了大量无意义规则,提高了挖掘结果的质量。在标准数据集的仿真中取得了较好的效果。 最后,在本文中详细介绍了一个具体的电信行业数据挖掘分析实例--某市电信小灵通套餐业务的营销推广分析。开始全面阐述了交叉销售的概念,并提出了基于关联规则的交叉销售模型,最后通过对小灵通客户业务消费的历史数据进行挖掘,实现了小灵通各业务之间的关联分析,并对交叉销售模型的实证结果进行了详细的讨论和分析。
计算机软件与理论 重庆大学 2003(学位年度)
摘要:随着计算机应用范围、领域等的日益扩大,特别是Internet的飞速发展,在各种应用系统和Internet上积聚了大量、甚至海量数据,产生了“数据爆炸、知识贫乏”的现象;数据挖掘是解决这种问题的最为有效的手段,它包含关联规则挖掘、预测、分类、聚类、演化分析等多种技术手段。其中关联规则挖掘是一种主要的,也是用途最广的数据挖掘方法。 关联规则概念最早是由在IBM工作的RakeshAgrawal博士等于1993年提出的,用于刻划事务数据库中各交易项目之间的关系,即频繁关系,其研究已有10余年时间,取得了很多成果,但还有很多问题亟待解决。本论文对此作了详细介绍,并对关联规则挖掘理论特别是关联规则挖掘算法进行了深入研究,取得了一定的研究成果。 作者把关联规则挖掘分为五个阶段,提出了MMAR模型,该模型是对Agrawal两阶段模型的改进与完善,更符合现有的实际,且对未来关联规则挖掘研究也更具指导意义。在该模型中,作者第一次明确提出了把现有的关联规则看成是关联关系及其关联关系表达的统一体,这种分离有助于对关联规则知识的理解,也明确指明关联关系及其表达同关联规则挖掘算法等一样是关联规则挖掘中的一个重要不可缺的方面。 在关联关系研究中,作者提出了扩展型关联关系以及扩展型关联规则。扩展型关联规则涵盖了RakeshAgrawal提出的基本型关联规则,从语义上看,后者只是前者的一种特殊形式,扩展型关联规则既具有理论意义又有实际应用价值。扩展型关联规则既包含肯定频繁关系又包含否定频繁关系,而基本型关联规则仅包含肯定频繁关系;此外,作者还推导了扩展型关联规则支持度计算的若干定理,并利用这些定理建立了一个有效的扩展型关联规则挖掘算法。 通常,挖掘产生的关联规则都存在数量过大的问题,现有的办法是通过兴趣度、带约束的关联规则挖掘来解决该问题,但效果甚差,为此作者提出了原关联规则。原关联规则具有很强的规则约简能力和生成能力,利用其规则约简能力,在挖掘时可以极大减少关联规则的数量;利用其规则生成能力,在产生原关联规则后,可以得到其它的关联规则,从而不会产生信息知识的丢失;原关联规则可以几倍甚至几十倍地减少关联规则数量。此外,作者针对原关联规则生成,提出了一个有效的两步生成算法,即先从频繁项生成源关联规则(SourceAssociationRules),再从源关联规则生成原关联规则(AtomAssociationRules)。 关联规则频繁项的挖掘是关联规则挖掘的中重要研究内容,目前绝大多数的研究都集中在如何提高频繁项挖掘的效率上。现有研究主要从提高串行算法的效率、利用并行和分布式挖掘算法、增量挖掘算法等来提高关联规则挖掘效率,为进一步提高效率,还提出了挖掘部分或特殊关联规则,如提出挖掘极大频繁项、挖掘闭集频繁项的挖掘算法。作者对此进行了深入研究,发现关联规则串行算法是提高关联规则挖掘效率的基础,并行算法和增量算法都是基于某种串行算法的在对树-投影挖掘串行算法进行的研究中,作者发现了该算法存在冗余投影这一现象,并提出了水平优化策略、垂直优化策略解决方案,论证了这两种优化策略的关系,从理论上详细论证了其优点。实验表明,采用水平优化策略的算法与不采用优化策略的算法相比,算法性能有了很大提高,执行时间能成倍降低,存储空间也极大减少;而且这种两种优化策略是和数据结构无关的,因此它们既可用于现有各种基于树-投影的关联规则挖掘算法的优化,又可用于指导未来的树-投影关联规则挖掘算法的设计;此外,针对关系数据库中多维关联规则的挖掘,作者还提出了一个结合投影树、广度优先搜索、兄弟交集投影、Apriori优化、水平优化、属性项目优化、数据垂直组织等多种优化方法的关联规则挖掘算法,克服了现有挖掘方法的某些不足。 本文最后对研究工作进行了总结,提出了今后进一步的研究方向。
控制理论与控制工程 重庆大学 2003(学位年度)
摘要:数据挖掘是当前KDD中的一个重要领域,而关联规则的挖掘是数据挖掘的一个重要组成部分。Internet/Intranet的高速发展促进了数据库技术的深入应用。由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。分布式关联规则的挖掘就是在这样的背景下提出的。 本文在分析和介绍了关联规则挖掘的基本概念和方法以及分布式关联规则挖掘方法和技术基础上,提出了中心结点结构的分布式关联规则挖掘的算法(C-DMA),分布式多层概念的关联规则挖掘算法,以及分布式元学习可变精度关联规则的挖掘算法;并且,在分析和研究了分布式关联规则挖掘中常见的数量型关联规则、关联规则的兴趣度问题的基础上提出了数量关联规则的聚类划分方法以及兴趣度过滤方法。本文的主要工作和结论如下: (1)对于分布式关联规则挖掘问题,目前的主要算法是CD算法和FDM算法。这些算法都是基于网状结构的分布式关联规则挖掘算法。但是,在实际的网络应用环境中,用户基于成本和管理等方面的需要,使用的网络结构往往是星型结构的,所以CD算法和FDM算法在网络结构和实际的网络结构不相适应,本文在CD算法及FDM算法的基础上提出以中心结点结构的分布式关联规则挖掘算法,并且从算法分析和仿真试验两个方面证明了算法的有效性和可扩展性。 (2)在分布式挖掘过程中,分布式数据库中存在着大量的数量属性,这些数量属性的处理好坏,直接影响着关联规则的挖掘效果和效率。本文在分析了数量型属性划分的基础上,提出了改进的FCM聚类及其利用遗传算法优化FCM聚类来处理数量型关联规则的方法。 (3)在实际的关联规则挖掘应用中,多层概念关联规则是用户经常考虑的问题。本文在设计并分析了单数据库多层关联规则挖掘算法的基础上,提出了在多层概念上进行分布式关联规则挖掘的算法。仿真试验表明,算法是有效的。 (4)由于大量数据的分布,提高分布式关联规则挖掘的效率是十分重要的一个环节。本文在Sampling算法的基础上提出了分布式元学习可变精度关联规则挖掘算法。算法分析表明,该算法是有效的。 (5)在关联规则挖掘中,关联规则结果的评价是关联规则应用的关键。本文在详细分析了目前国内外关联规则兴趣度评价的基础上,提出了利用Klementinen模版理论与相似性理论向结合的关联规则结果的处理算法。
概率论与数理统计 中国人民大学 2012(学位年度)
获取途径: 中国人民大学
学术圈
实名学术社交
订阅
个性化订阅推荐
收藏
快速查看收藏过的文献
客服
服务
回到
顶部