绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
获取范围
  • 1 / 2
  (已选择0条) 清除 结果分析
找到 35 条结果
[期刊论文] 郑伟 侯宏旭 班志杰
-
CSTPCD 北大核心
-
摘要:专家发现是实体检索领域的一个研究热点,针对经典专家发现模型存在索引术语独立性假设与检索性能低的缺陷,提出一种基于贝叶斯网络模型的专家发现方法.该方法模型采用四层网络结构,能够实现图形化的概率推理,同时运用词向量技术能够实现查询术语的语义扩展.实验结果显示新模型在多个评价指标上均优于经典专家发现模型,能够有效实现查询术语语义扩展,提高专家检索性能....
摘要:在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果.该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究.通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性.实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果....
摘要:该文对基于传统统计模型的蒙汉机器翻译模型和基于神经网络机器翻译模型进行了研究.其中,神经网络翻译模型分别为基于CNN、RNN的翻译模型,并通过将所有翻译模型结果进行句子级融合得到一个融合模型.面对蒙汉翻译面临资源稀少、蒙古文形态复杂等困难,该文提出多种翻译技术,对各个模型进行改进,并对蒙古文进行形态分析与处理.在翻译效果最好的CNN模型上,采用字和短语融合训练方法;基于RNN的翻译模型除用上述方法外,还采用Giza++指导对齐技术调整RNN注意力机制;针对SM T采用了实验室提出的重对齐技术.该文对实验结果进行了对比和分析,这三种技术方法对相应系统翻译效果有显著提升.此外,蒙古文形态分析与处理对缓解数据稀疏、提升译文质量也有重要作用....
摘要:神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果.神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示.该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法歧义问题.其次,为了降低翻译模型解码器的计算复杂度以及模型的训练时间,通常会限制目标词典大小,这导致大量未登录词的出现.该文利用加入词性特征的词向量计算单词之间的相似度,将未登录词用目标词典中与之最相近的单词替换,以缓解未登录词问题.最终实验显示在蒙古文到汉文的翻译任务上将译文的BLEU值提高了2 .68个BLEU点....
摘要:传统蒙古文形态分析主要采用将蒙古文词缀和词干直接切分而仅保留词干的方法,该方法会丢掉蒙古文词缀所包含的大量语义信息.蒙古文词缀中包含大量格的附加成分,主要表征句子的结构特征,对其进行切分并不会影响词汇的语义特征,若不进行预处理则会造成严重的数据稀疏问题,从而影响翻译质量.因此,基于现有理论对语料预处理方法进行总结研究,重点研究了蒙古文格处理对翻译结果的影响,目的是从蒙古文形态分析的特殊性入手来提高蒙古文-汉文统计机器翻译的质量.通过优化预处理方法,使机器翻译结果的BLEU得分相比基线系统1提高了3.22个点....
-
北大核心 CSTPCD CSCD AJ CA CBST SA
-
摘要:汉语-新蒙古文命名实体翻译在跨汉语-新蒙古文信息处理中具有重要意义,而直接使用机器翻译的方法不能达到满意的结果.针对上述问题,提出一种从汉语-新蒙古文平行语料中自动抽取汉语-新蒙古文命名实体翻译对的方法.该方法只需对汉语端进行命名实体标注;然后基于双语HMM词对齐结果,利用滑动窗口的方法抽取所有候选命名实体翻译对;最后基于融合5种特征的最大熵模型,对所有候选翻译单位进行过滤,选取与汉语端命名实体相对应的置信度最高的新蒙古文命名实体翻译单位.实验结果表明,该方法优于基于HMM的方法,在对齐模型只是部分准确的情况下,也获得较高准确率的汉语-新蒙古文命名实体翻译对....
[期刊论文] 马永强 侯宏旭 王顺利
-
北大核心 CSTPCD CSCD CBST SA
-
摘要:为了解决当前对比度增强算法在图像纹理或高信号活动区域易出现颜色改变以及过度增强,且难以兼顾图像全局内容增强与局部细节增强等不足,提出了基于归一化标量权重映射与融合金字塔的图像对比度增强算法.基于2D方向偏导,定义对比度与亮度的度量模型,并以此构造标量权重映射模型;引入拉普拉斯金字塔分解机制得到图像的层次结构,再计算其权重映射的高斯金字塔;定义这两个金字塔的融合规则,得到融合金字塔;在图像度量模型与权重映射模型的引导下,利用融合金字塔完成图像重构.实验结果表明,与当前对比度增强算法相比,该算法的对比度增强质量最佳,失真度较小,没有影响颜色平衡,消除了过渡增强与人工饱和度的引入.该算法能够较好地增强彩图对比度....
[期刊论文] 史建国 侯宏旭 飞龙
-
北大核心 CSTPCD CSCD CBST
-
摘要:斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文.蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础.该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分.首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词.最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案.通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统....
-
北大核心 CSTPCD CSCD CBST
-
摘要:在以国际标准编码存储的传统蒙古支电子文本中,拼写错误十分普遍.人工校对这些错误不仅速度慢而且成本高.该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译.该文使用改进的基于短语的统计机器翻译模型采构建拼写校对模型,然后对测试文本进行校对.实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识.使用该方法对包含1 026个正确词、1 102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可这97.55%....
[期刊论文] 辛强 侯宏旭 姜鑫 明玉
-
北大核心 CSTPCD CSCD
-
摘要:“短彩连连发”稽核系统利用信息化技术手段加强业务稽核工作,改变以前完全依靠人工稽核的工作模式.该系统用特定算法生成测试例,模拟用户短信转发行为,以确定“短彩连连发”平台短信转发量计数是否正确.经实验表明,“短彩连连发”稽核技术能够取得较好的稽核效果,可以用于实际系统进行稽核操作....
[期刊论文] 赵伟 侯宏旭 从伟 宋美娜
-
北大核心 CSTPCD CSCD CBST
-
摘要:词干和构形附加成分是蒙古语词的组成成分,在构形附加成分中包含着数、格、体、时等大量语法信息.利用这些语法信息有助于使用计算机对蒙古语进行有效处理.蒙古语词在结构上表现为一个整体,为了利用其中的语法信息需要识别出词干和各构形附加成分.通过分析蒙古语词的构形特点,提出一种有效的蒙古语词标注方法,并基于条件随机场模型构建了一个实用的蒙古语词切分系统.实验表明该系统的词切分准确率比现有蒙古语词切分系统的准确率有较大提高,达到了0.992....
摘要:数据平滑技术主要是用来解决统计语言模型在实际应用中数据稀疏问题,它是语言建模的核心技术,Katz平滑方法是应用最广泛的方法之一.本文对Katz平滑算法作了改进,使之应用于trigger对的平滑,并在汉语-蒙古语机器翻译系统实现了该算法,实验结果表明该技术可以提高翻译效果....
-
北大核心 CSTPCD CSCD CBST
-
摘要:基于trigger对的长距离蒙古语语言模型采用统计方法进行自然语言建模.该文简要介绍了基于trigger对的长距离蒙古语语言模型的三种实现方法,并在汉语-蒙古语机器翻译系统测试了这三种方法的性能.该文旨在通过对三种模型的比较研究,为基于trigger对的长距离蒙古语语言模型的具体应用提供参考和依据....
摘要:蒙古文具有典型的构词、构形词缀的特点,一个蒙古语单词往往可以切分成词干和词缀等若干个部分.根据蒙古语的特点,提出了一种层次化的蒙古语语言模型,将蒙古语语言模型分为词干和词干、词干和词缀、词缀和词缀三个层次.在这三个层次上分别计算出独立的语言模型.把这种层次化的蒙古语语言模型方案应用到了一个统计汉蒙机器翻译系统中,实验证明所构造的层次化的蒙古语语言模型能够有效地提高汉蒙机器翻译的效果....
[期刊论文] 侯宏旭 刘群 李锦涛
-
北大核心 CSTPCD CSCD CA EI CBST
-
摘要:根据蒙古语的一些特点,为基于短语的汉蒙统计机器翻译提出了一种适合于汉蒙统计机器翻译的调序模型,并给出了相应的训练和解码算法以及初步实验的结果.汉蒙双语语料库规模很小,数据稀疏问题严重,而在汉蒙翻译中,词序变化又非常明显,在汉英等机器翻译中使用的调序方法难于应用到汉蒙统计机器翻译中.通过对汉蒙翻译过程中词语顺序变化的正态分布假设,建立了一种概率调序模型.实验表明,这种概率调序模型好于Moses系统中采用的调序方法....
摘要:通过对蒙古文词切分技术的分析,利用规则作为切分的基础,提出一种统计和规则相结合的蒙古文词切分方法.这种方法利用蒙古语统计语言模型作为排歧依据,使用的语言模型有基于词性的语言模型和Skip-N语言模型.其词切分准确率比基于规则的系统有较大提高....
摘要:蒙古文具有典型的构词词缀的特点,一个词往往可以切分成词干和词缀等若干个部分.如果采用通常的N-gram语言模型很难描述词干、词缀等的长距离依赖关系.提出了一种利用长距离依赖的Skip-N语言模型,给出了相隔N个词的二元依赖关系.对这种方法进行了实现,并在一个基于实例的汉蒙机器翻译系统上进行了实验,实验证明Skip-N语言模型能够有效地提高汉蒙机器翻译的效果....
-
北大核心 CSTPCD CSCD CBST
-
摘要:本文通过对汉蒙机器翻译方法的研究,给出了一种基于实例的汉蒙机器翻译方法,并加以了实现.本文给出了用于汉蒙EBMT机器翻译的实例搜索以及短语片段划分、匹配、组合的方法.本文给出的方法是基于词语对齐的,利用词语对齐进行词语的匹配,并根据匹配词数和长度计算相似度,选取最好的实例.通过对齐信息,确定片段组合的策略,生成翻译结果.通过对方法的实现和实验,完成了一个基于实例的汉蒙机器翻译系统....
-
北大核心 CSTPCD CSCD CBST
-
摘要:为了能够全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,2005年度863计划机器翻译评测于2005年9月举行.本次评测进行了汉英、英汉、汉日、日汉、日英、英日6个语言方向,两种类型的评测以及汉英词语对齐的评测.本次评测采用了网上评测的形式,利用基于N-gram的NIST、BLEU以及人工评测方法对各系统的结果进行评测.本文给出了此次评测的组织、准备、过程、结果及分析.为国内外研究单位在机器翻译方面的进一步研究提供了数据....
[期刊论文] 侯宏旭
-
北大核心 CSTPCD CSCD CA
-
摘要:讨论如何在Windows平台上,处理文字的显示.讨论了在图形系统中显示、打印文字信息的几种情况,出现的问题,及相应的解决方案.针对蒙文、汉文等文字的录入、编辑,设计了专门的显示、编辑控件,解决了在Web页面中文字的显示问题.这里对显示汉蒙文字所遇到的文字显示宽度、旋转角度问题进行了讨论并给出了解决方法.给出了在椭圆曲线上显示文字的一种方法....
  (已选择0条) 清除
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部