绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友
万方知识发现服务平台
获取范围
  • 1 / 1
  (已选择0条) 清除 结果分析
找到 7 条结果
摘要:彝文古籍数量繁多,但却在迅速减少,亟待运用科学手段进行抢救、整理、规范.为满足考古工作者和出版业界的需要,从排版系统中对中英彝文混合输入的实用性考虑出发,采用Unicode国际编码标准,且字库编码区间实现从自造区间到汉字区间的跨越.就Windows操作系统中进行滇南彝文字库设计及输入法实现所涉及到的原理及若干问题进行了阐述,并在此基础上利用多多输入法API进行程序开发,在克服了操作系统应用环境、字库编码区间及方式、文字混合显示等技术障碍后,最终开发出"滇南彝文数字化信息处理平台".无论是从可行性和实用性分析,该平台的第三套"滇南彝文自由拆分模式的一对多形态编码输入法"在很大程度上解决了当前彝文输入法所普遍存在的易学性问题,是一款操作稳定、输入快捷、简单易学的彝文输入法,尤其对彝文信息化的推广具有广泛的使用价值和示范价值....
摘要:本文通过对社交网络的信息获取技术中的OAuth认证、Deep Web等原理的分析,结合泰文网页的特点,设计泰文信息判别方法,对Facebook的泰文信息获取方法进行了研究,由于防火墙等原因,最后以泰国华人论坛为例,实现了泰文信息的获取,也为下一步的信息分析和挖掘打好了基础....
摘要:针对大规模社交群体中查询结果过于复杂等问题,将个性化定制和可视化联系起来,能够帮助开发者分析海量数据中的有用信息.本文以泰文版的Facebook为研究对象,结合当前社交网络的OAuth认证、Graph Search社交图谱搜索等原理,对其用户行为可视化方法进行了探讨.考虑到防火墙对Facebook的限制,对自由构建可视化模型的相关泰文文本处理技术还不够成熟.本文利用JT (JavaSciptInfoVis Toolkit)工具,查询定制了RGraph可视化模型构建的相关参数,并通过Visual.ly数据可视化平台将程序脚本打包成可视化定制模版,实现了基于泰文社交网络行为的可视化图谱....
摘要:本文通过对中文网页采集流程、网络爬虫工作基本原理的分析,再结合彝文网页的特点,对彝文网页信息的采集技术进行了研究,通过聚焦网络爬虫来实现彝文网页信息的采集,并依此来建立一个内容全面的彝文网页信息资源库....
摘要:为解决互联网上彝文内容安全的问题,提出了一种互联网彝文内容安全检测过滤系统。通过对彝文字词组合形式和基本特点的深入研究,主要包括彝文的预处理、彝文字词的分解、词条的的字典排序、字词的频度统计等。本文还对安全检测过滤系统的框架进行了描述,并针对彝文编码、彝文分词方法等问题进行了讨论,提出了彝文编码的判定转换方法以及格语法与词典相结合的彝文分词方法。...
摘要:汉-彝舆情信息库的主要技术利用了B/S结构,系统设计为浏览器/服务器模式(B/S),三层架构体系,便于在互联网上以网站形式发布和提供服务,用户界面通过不断成熟的WWW浏览器技术实现,结合浏览器的Script语言,实现了原来需要复杂专用软件才能实现的强大功能,并节约了开发成本。...
[硕士论文] 张建营
通信与信息系统 云南民族大学 2015(学位年度)
摘要:当下,我们处在互联网突飞猛进的大数据时代,网络资源的增长呈现爆炸式的状态,彝文网站也随之逐步发展起来,但是针对少数民族语言文字的搜索引擎的研究才刚处于起步阶段。就目前的国内外中英文搜索引擎研究现状来说,除了大部分用全文搜索技术实现对中英文网页的采集和搜索外,还包括垂直搜索和元搜索等。最主要的搜索还是全文搜索,如谷歌和百度等,但无法做到对少数民族语言文字(如彝文)的采集和搜索。因此本文需要在中英文成熟技术的基础上找到一种适合的网页采集和搜索引擎技术,网络爬虫是搜索引擎的基础和核心,主要有通用爬虫和主题爬虫,因此需要设计合理的爬虫来实现彝文网页的采集。
  本文在研究中英文搜索引擎的基础上,分析当前彝文网站特性和彝文字特点,采用垂直搜索技术,并结合彝文主题爬虫,同时为了避免采集陷入循环,采用广度优先搜索策略对彝文网页进行采集,从而达到更好的彝文网页采集效果。
  本文采用垂直搜索方法设计了适合彝文的搜索引擎架构,并开发一套彝文网页信息采集系统。本文首先以彝文网站首页为起始URL种子,对其实现单线程采集;其次设计基于彝文网页文本和链接特点的网页判别算法,并通过正则表达式解析相应的网页内容;然后在彝文文本保存中采用编码转换,做到彝文的文本存储;之后建立了汉—彝词库,结合词频统计创新性的研究了汉—彝词同时对应显示的理论算法;最后以彝文标题匹配方式进行检索,并达到了满意效果。
  本文通过对彝文网页采集系统运行和测试,得到了转化率在80%以上,识别率都在95%以上,对彝文初探的研究中达到了理想结果。通过与目前已有的中文采集系统相比,本系统的优势在于它提高了采集效率,并为彝文网页采集提供了新思路,具有很好的实用性。
  (已选择0条) 清除
公   告

北京万方数据股份有限公司在天猫、京东开具唯一官方授权的直营店铺:

1、天猫--万方数据教育专营店

2、京东--万方数据官方旗舰店

敬请广大用户关注、支持!查看详情

手机版

万方数据知识服务平台 扫码关注微信公众号

万方选题

学术圈
实名学术社交
订阅
收藏
快速查看收藏过的文献
客服
服务
回到
顶部