绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
获取范围
  • 1 / 1
  (已选择0条) 清除 结果分析
找到 2 条结果
摘要:目的:通过对癌症基因表达数据的分析,预测多形性胶质母细胞瘤的驱动基因集.方法:基于主成分分析方法和神经网络,提出一种用于预测多形性胶质母细胞瘤驱动基因的系统生物学模型.首先对实验样本的原始表达谱数据进行预清洗,过滤掉无信息或表达不符合实验要求的表达数据,并对肿瘤表达谱数据进行标准化处理;然后对基因进行划分,相似突变率的基因将被划分到同一块中;最后通过学习神经网络,构建癌症相关基因的调控网络,得出驱动基因的预测集.结果:本研究应用上述模型,对多形性胶质母细胞瘤(glioblastoma multiforme,GBM)驱动基因进行预测.已发表的大量实验结果表明,我们预测出的大部分驱动基因在GBM中起重要作用.结论:我们提出一种对GBM表达谱数据分析的新方法,能够高精度地预测出该疾病的驱动基因,该模型同样能够较好地用于分析其它疾病的表达谱数据....
[硕士论文] 常菁
计算机科学与技术 北京交通大学 2018(学位年度)
摘要:目前国内外对蛋白质二级结构的研究方向主要是预测,即给定蛋白质的一级结构序列来预测其所属的二级结构。本课题提出了一种新的研究思路——生成特定的蛋白质二级结构。从预测到生成,这对蛋白质二级结构的研究是一种理论上的创新,同时也为生物工程和生物制药等提供了便利,具有实际意义。
  另一方面,深度生成模型在图像、文本等方面的已经取得了一定的成果,而在生物序列方面的研究较少。本课题在生成蛋白质二级结构的研究中选择使用深度生成模型,这也是深度学习方法在生物序列生成中的尝试与应用。
  为了实现蛋白质二级结构的生成,本课题做出以下几个贡献:
  (1)构建了完备的蛋白质二级结构数据集。在PDB数据库中下载蛋白质数据文件,并提取出其中的二级结构数据,同时,针对不同的模型进行不同的数据预处理与编码,最终得到适用于模型的训练集;
  (2)验证了一般性的LSTM网络不适用于蛋白质二级序列的合成。本课题构建了一个LSTM网络,通过生成二级结构序列作为对比,我们在实验中发现LSTM生成的样本重复率高、多样性差,精确率的均值较低、标准差较高。该实验结果表明一般性的LSTM网络不适用于蛋白质二级结构的生成,因此本课题还需要设计更好的蛋白质二级结构序列生成模型;
  (3)提出了一个新的算法ssp-SeqGAN,用于生成高精度的蛋白质二级结构序列。和SeqGAN方法类似,我们采用了基于强化学习结合GAN的方法。SeqGAN是生成离散序列的一般性算法,它不适用于直接生成高精度的蛋白质二级结构序列。为了解决这个问题,首先,我们重新设计了判别器D的网络结构,在CNN的池化层之前与全连接层之前分别加了BN层,得到模型SeqGAN-BN;第二,我们在SeqGAN-BN的基础上改进了模型的预训练方式,得到新的模型ssp-SeqGAN。ssp-SeqGAN的主要贡献是提出了新的具有更高多样性与对抗性的负样本的构造方式,有效的提升了预训练的结果。
  实验结果表明一般性的LSTM生成序列的精确率仅略高于随机生成的序列,其不适用于蛋白质二级结构的设计。我们提出的新模型ssp-SeqGAN生成序列的精确率比SeqGAN有了显著的提升,并且其精确率的标准差较低,证明了ssp-SeqGAN可以稳定地生成具有较高精确率的样本。
  综上,本课题提出了一个用于设计蛋白质二级结构序列的深度生成式模型ssp-SeqGAN。在生成蛋白质二级结构序列的研究中,ssp-SeqGAN比现有常规序列模型LSTM以及用于生成离散序列的模型SeqGAN相比均有更好的效果。
  (已选择0条) 清除
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部