欢迎光临中国最具影响力的权威学术论文下载网站,CSSCI来源期刊论文发表中 心,中国学术论文免费下载门户网站高级搜索|网站地图|TAG标签|RSS订阅|加入 收藏 CSSCI学术论文网:中国最具影响力,规模最大的核心期刊权威学术论文免费下载网站 IFRAME: http://www.csscipaper.com/proxy.html?id=87375 * 论文主页 * 哲学宗教 * 政治法律 * 经济理论 * 管理科学 * 中国经济 * 金融财会 * 课程教学 * 教育理论 * 社会科学 * 体育论文 * 新闻传播 * 档案出版 * 语言文字 * 文化研究 * 艺术理论 * 文艺文学 * 历史论文 * 地理考古 * 大学学报 * 核心期刊 * 读书杂志 * 博士论文 * 代找论文 IFRAME: http://unstat.baidu.com/bdun.bsc?tn=cnpolitics_pg&cv=0&cid=1129863&csi d=541&bgcr=ffffff&urlcr=0000ff&tbsz=300&sropls=2,99&insiteurl=csscipap er.com%3Bwww.sizhenglunwen.com%3Bwww.cnpolitics.net&defid=99&kwgp=0 IFRAME: http://spcode.baidu.com/spcode/spstyle/style2878.jsp?tn=cnpolitics_sp& ctn=0&styleid=2878 IFRAME: http://spcode.baidu.com/spcode/spstyle/style3162.jsp?tn=cnpolitics_sp& ctn=0&styleid=3162 当前位置: CSSCI学术论文网 > 档案出版 > 图书馆学CSSCI核心期刊学术论文 > 图书馆学研究 > IFRAME: http://www.csscipaper.com/proxy.html?id=85196 网上信息的跨语言检索 论文发表时间:2009-11-09 19:59学术论文来源:www.csscipaper.com 论文发表 者:MP5 点击:次 IFRAME: http://www.csscipaper.com/proxy.html?id=75016 网上信息的跨语言检索 【作 者】李培/武丽辉 【作者简介】李培,武丽辉,南 开大学国际商学院图书馆学系 天津 300071 李培,男,1964年生,南开大学国 际商学院图书馆学系副教授,图书馆副馆长。 武丽辉,女,1978年生,南开大 学国际商学院图书馆学系2002级硕 IFRAME: http://www.csscipaper.com/proxy.html?id=75023 网上信息的跨语言检索 【作 者】李培/武丽辉 【作者简介】李培,武丽辉,南开大学国际商学院图书馆 学系 天津 300071 李培,男,1964年生,南开大学国际商学院图书馆学系副教授,图书馆副馆长。 武丽辉,女,1978年生,南开大学国际商学院图书馆学系2002级硕士研究生。 【内容提要】文章对跨语言信息检索的相关技术和实现方法进行了系统地论述, 对跨语言检索中的语言资源、翻译歧义性消解等关键性问题的研究进行了归纳与 梳理,指出我国跨语言检索研究距世界先进水平尚有一定差距,应加强该领域的 研究。 【摘 要 题】专题探讨 【关 键 词】跨语言检索/网上信息检索/自动翻译/歧义消解 【正 文】 网上的信息资源类型丰富、数量庞大,所使用的语言亦具多样性。当前全球3130 亿网页内容所使用的语言依次为英文68.4%、日文5.9%、德文5.8%、中文3.9 %、法文3.0%、西班牙文2.4%、俄文1.9%、意大利文1.6%、葡萄牙文1.4% 、韩文1.3%、其他文种4.4%[1]。全世界6亿多网络人口的使用语言依次为英 文38.3%、中文11.2%、日文10%、德文6.8%、西班牙文5.5%、韩文4.1%、 意大利文3.9%、法文3.5%、葡萄牙文3.1%、俄文3%、其他10.6%[2]。网上 资源语言的多样性和网民所掌握语言的差异性不可避免地给人们利用网络带来了 语言障碍,人们对语言自动翻译的需求越发迫切。据统计,2002年10月在使用英 文搜索引擎中提出语言翻译请求的几种主要语种有:西班牙文47.2%、法文17% 、拉丁文7.8%、德文6.2%、日文4.7%、意大利文3.2%、俄文2.4%、中文2 %[3]。为了消除网络资源利用中的语言障碍,跨语言信息检索技术 (Cross-Language Information Retrieval--CLIR)成为目前信息检索领域中重 要的研究课题。     1 跨语言检索的相关技术 跨语言信息检索是指用户以一种语言提问,检出另一种语言或多种语言描述的相 关信息。例如,输入中文检索式,跨语言检索系统会返回英文、日文等语言描述 的信息。这里的信息可以是文本信息也可以是其他形式的信息,目前研究最多的 是跨语言文本信息检索和跨语言语音信息检索。在跨语言检索中,提问式所使用 的语言通常称为源语言,源语言一般是用户的母语;被检索文档所使用的语言称 为目标语言,目标语言可以是用户不熟悉甚至完全陌生的语言。与跨语言检索相 对应,提问式语言和文档语言相同的检索称为单语言检索(monolingual retrieval)。 网上信息跨语言检索的过程是:网络蜘蛛(Web spider)搜索网络信息,在统计 方法、自动标引技术的支持下编制以语言为基础的索引,服务器接受以一种语言 描述的提问式,并返回跨语言检索的结果,这一结果是由不同语言描述的信息集 合构成的。在跨语言检索中主要涉及的技术有计算机信息检索技术和机器翻译技 术:计算机信息检索技术完成提问式与文档之间的匹配,机器翻译技术完成不同 语言之间的语义对等。   1.1 计算机信息检索技术 计算机信息检索技术目前已趋于成熟。在单语言检索中,计算机检索技术主要是 自动搜索技术、自动标引技术和自动匹配技术。检索系统利用网络蜘蛛进行网络 信息的收集,然后利用自动标引技术对搜集的信息进行标引形成索引数据库。用 户输入检索式后,计算机把检索式与数据库中索引项进行匹配,按检索式与标引 项相关性大小降序输出检索结果。跨语言检索中实现信息检索的原理和方法与单 语言检索是相同的,只是在检索的过程中加入语言处理技术,使一种语言能够与 其它语言对应。   1.2 机器翻译技术 机器翻译技术实质上是一种能够将一种语言的文本自动翻译成另一语言文本的计 算机程序。机器翻译技术的核心是保持两种文本(源语言文本和目标语言文本) 的语义对等,由于在翻译过程中,源语言文本中的词往往对应目标语言描述的几 个词,所以要选择最合适的词或其他的处理以达到含义的一致。由于这涉及到复 杂的计算机语义分析技术,因此机器翻译的效果还远未达到人们所期望的水平。 在跨语言检索中,需要利用自然语言处理与机器翻译相结合的技术提高翻译的准 确性,因为在跨语言检索中,翻译的准确性直接决定了检索的准确性。 计算机信息检索技术和机器翻译技术是跨语言检索中所利用的主要技术,由于计 算机检索技术已比较成熟,而机器翻译技术的实用性还有待发展和完善,因此跨 语言检索所要解决的问题实际上是一个语言处理问题。跨语言检索不同于单语言 信息检索和机器翻译,也不是两种技术的简单叠加,它是一种有机的融合,有着 自身的特点和专门的研究内容。     2 跨语言检索的实现方法 目前跨语言检索的主要实现方法有:提问式翻译、文献翻译、提问式--文献翻译 、中间翻译和非翻译。   2.1 提问式翻译方法(query translation) 提问式翻译的过程是把源语言的提问式利用机器翻译技术翻译成目标语言提问式 ,再进行单语言检索。利用提问式翻译的方法进行跨语言检索的实质是把源语言 提问式做了适当转换,其基本的过程和技术还是单语言检索,而且检索返回的结 果是用目标语言描述的,这增加了用户利用信息的难度。当一个源语言提问词有 多个目标语言词与其应时,通常选择第一种或全部的释义作为提问式的译法。选 择第一种译法自然存在一定的不合理性,选择全部的译法又大大降低了检索的查 准率。针对这一问题,Pirkola等人提出了提问式构造法(query structuring )[4],认为主要有三种构造提问式的方法:基于同源词的构造法(syn-based structuring)、基于复合词的构造法(compound-based)、n元匹配法(n-Gram matching)。提问式构造方法的实质是利用同源词、复合词或n元匹配分析提问 式中各个词的权重:只有一种或两种释义的词的权重最高,而有多种解释的词用 同源词符、复合词符或n元匹配符连接以降低其权重。Pirkola等人通过对三种方 法实验,验证了使用提问式构造法会提高跨语言检索的检索性能。   2.2 文献翻译方法(document translation) 文献翻译方法不对提问式进行翻译,而是把数据库中用目标语言描述的文献翻译 成与提问描述相一致的源语言形式,再通过提问式与信息库的匹配,完成检索过 程。运用文献翻译方法进行跨语言检索,返回给用户的结果是用源语言描述的, 用户能够方便地选择利用。文献层次的翻译相比于提问层次的翻译,其语境更加 宽泛,进行歧义性分析所能利用的线索比较多。但是这种方法所使用的文本自动 翻译技术的正确率目前还难以达到实用水平,而且将数据库中全部文献从目标语 言翻译到源语言的工作量也是巨大的。文献翻译方法只有在翻译内容有限的情况 下才有意义,如对已确定要浏览的某个网页进行翻译。目前采用这种方法的实验 系统尚未见报道。   2.3 提问式-文献翻译方法(query-document translation) 在这一方法中,源语言提问式翻译成目标语言提问式,与目标语言描述的信息库 进行匹配,检出相关信息,然后再把检索结果的全部或部分翻译成源语言描述的 信息。检索结果的翻译一般选择部分翻译,因为跟全部翻译相比,部分翻译的工 作量较少,容易提高翻译的效率和质量。部分翻译一般是对结果文本的前两行、 文摘、或文本中重要的词进行翻译。在重要词的翻译中,如何找出确定重要词是 决定这种方法效果的关键。目前的研究主要是根据词频并结合禁用词表和功能词 表来决定词的重要性。利用提问式-文献翻译方法进行检索,返回给用户的结果 是用用户所熟悉的源语言描述的,用户能够容易地选择利用检索出的信息,减少 了用户的翻译成本,提高了检索服务的质量。   2.4 中间翻译方法(triangulated translation) (转载请注明网络来源:CSSCI学术论文网) * 共3页: * 上一页 * 1 * 2 * 3 * 下一页 分享到: 新浪微博 网易微博 QQ空间 QQ收藏 开心网 人人网 百度空间 ------分隔线---------------------------- 搜索与网上信息的跨语言检索相关的CSSCI学术论文 谷歌搜索网上信息的跨语言检索 百度搜索网上信息的跨语言检索 搜狗搜索网上 信息的跨语言检索 必应搜索网上信息的跨语言检索 搜搜搜索网上信息的跨语言 检索 雅虎搜索网上信息的跨语言检索 有道搜索网上信息的跨语言检索 CSSCI学术论文网站内搜索 CSSCI学术论文网免费论文栏目 + 信息科学研究 + 资料工作研究 + 图书馆学基础 + 图书馆学研究 + 图书馆学理论 + 图书馆学概论 + 图书馆学动态 + 图书情报工作 + 图书馆界研究 + 现代情报研究 + 图书馆学论文 + 大学图书馆学报 IFRAME: http://www.csscipaper.com/proxy.html?id=95862 CSSCI学术论文网热门论文下载 + 论信息资源组织方式的演变——文 + 改进的中文同义词相似匹配方法 + 高校共享数据中心平台的设计与实 + 图书分类法映射系统设计原理—— + 图书馆书刊采购决策支持系统设计 + 国外信息伦理学研究述评 CSSCI学术论文网精彩论文推荐 IFRAME: http://www.csscipaper.com/proxy.html?id=95828 + 中国学术界用户对互联网信息的利用及其评价 中国学术界用户对互联网信息的利用及其评价 【英文标题】The Using of Internet Infor... + 信息资源的基本理论问题研究 信息资源的基本理论问题研究 【英文标题】On the Basic Theoretical Issues of Inform... + 数字图书馆中多媒体馆藏与服务的建立 数字图书馆中多媒体馆藏与服务的建立 【英文标题】Developing Online Multimedia Coll... CSSCI学术论文网优秀合作商推荐 IFRAME: http://www.economypapers.com/proxy.html?id=75677 CSSCI学术论文网论文链接表 学术论文写作指南 | CSSCI来源期刊 | 最新论文 | Rss订阅 | 网站介绍 | 联 系我们 | 版权申明 | 广告服务 | 学科论文 | Sitemap | 收录查询 | 期刊编 辑入口 | 论文发表咨询 Powered by CSSCI学术论文网 本站历史访问总数: CSSCI学术论文网-中国最具 影响力的核心期刊学术论文发表平台 CSSCI学术论文范文网 | 中国学术论文免费下载中心 | CSSCI核心期刊论文发表 网 | 免费论文下载网站 | 学术论文写作格式标准网 | 学术论文毕业论文发表 网 Copyright (c) 2009-2011 http://www.csscipaper.com/ Some Rights Reserved.CSSCI学术论文网 版权所有.中国学术期刊论文总库. 湘ICP 备09022684号 CSSCI学术论文网所有核心论文来源于网络共享资源以及相关CSSCI权威学术期 刊,仅限学术交流,勿作商业用途.涉关权利申诉,请致函站长专属信 箱:admin@csscipaper.com. CSSCI学术论文网关键词:中国免费学术论文网,免费学术论文大全,免费毕业论文 网,免费学术论文下载网站,中国学术论文下载中心,CSSCI学术论文发表,CSSCI来 源期刊论文,CSSCI学术期刊论文网,权威期刊论文网,毕业论文免费下载,毕业论 文范文大全,毕业论文格式,本科毕业论文范文,大学生毕业论文范文,学术论文格 式范文,学术论文范文网,学术论文范文下载.