绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
找到 1 位学者
内蒙古大学
获取范围
  • 1 / 1
找到 4 条结果
[硕士论文] 樊文婷
计算机科学与技术 内蒙古大学 2018(学位年度)
摘要:随着深度学习的快速发展,基于神经网络的蒙汉机器翻译质量也有很大改善。本文针对机器翻译技术,对蒙汉机器翻译展开研究。由于蒙汉双语平行语料资源相对匮乏,导致注意力权值、词向量的学习受到限制,无法直接将其它翻译任务上的翻译方法应用到蒙汉翻译中。针对上述问题,本文提出了融合先验信息的蒙汉神经网络机器翻译模型,利用先验信息丰富模型学习的可利用特征,提高模型的翻译性能。
  首先,提出基于蒙汉机器翻译的指导对齐模型。通过对目标语言句子重排序,以减少汉文和蒙古文句子中存在的语序差异,从而提高基于统计方法的词对齐的准确率,之后利用统计方法获得的词对齐指导翻译模型的训练。此外,提出基于语义相似度的集外词替换方法,利用词向量计算单词与单词之间的相似度,将训练语料中的集外词用目标词典中的单词替换。最后是预训练模型,把利用大规模单语语料训练得到的词向量作为翻译模型的初始词向量,且在词向量中融入词性特征。
  实验结果表明,将指导对齐模型应用在神经网络蒙汉翻译任务上相比于基线系统译文有明显提升,BLEU值提升到了31.98,相比于基线系统BLEU值提升了2.29。实验证明,基于语义相似度的集外词替换方法可以减小翻译模型的计算复杂度。加入词向量预训练模型后,翻译模型的译文质量相比于基线系统BLEU值提升了2.68。
摘要:传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息.蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量.因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量.通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点....
摘要:神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果.神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示.该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题.其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现.该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题.最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2 .68个BLEU点....
摘要:该文对基于传统统计模型的蒙汉机器翻译模型和基于神经网络机器翻译模型进行了研究.其中,神经网络翻译模型分别为基于CNN、RNN的翻译模型,并通过将所有翻译模型结果进行句子级融合得到一个融合模型.面对蒙汉翻译面临资源稀少、蒙古文形态复杂等困难,该文提出多种翻译技术,对各个模型进行改进,并对蒙古文进行形态分析与处理.在翻译效果最好的CNN模型上,采用字和短语融合训练方法;基于RNN的翻译模型除用上述方法外,还采用Giza++指导对齐技术调整RNN注意力机制;针对SM T采用了实验室提出的重对齐技术.该文对实验结果进行了对比和分析,这三种技术方法对相应系统翻译效果有显著提升.此外,蒙古文形态分析与处理对缓解数据稀疏、提升译文质量也有重要作用....
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部