首 页  网站地图  收藏本站  关于我们 English
     
热门关键字
您的位置:主页>机器翻译>

Google机器翻译错误的技术分析

来源:作者:本站 打印本页】【关闭页面

前几天又发生了一次针对Google的所谓“辱华事件”,一篇号召网民“抵制Google翻译工具”的帖子在某著名论坛上出现,帖子指责Google的翻译工具出现离奇的“张冠李戴”现象,甚至有伤害中国人感情的嫌疑,对Google的不正确翻译,该文列举了一些例子,如“I thought this was shame”(我认为这是耻辱)被译为“我认为这是中国的耻辱”等等。
该篇文章发表后,引起了很多人的注意,不少媒体都进行了转载,之后,Google翻译也迅速修正了这个技术错误。
由于我自己也是经常使用Google翻译工具,因此我就结合一下我对Google翻译工具的理解来阐述一下这种错误可能产生的内在原因。
  以往的翻译通常都是使用一个一个词地“死译”,由于词义的多变性,同样一个单词在不同的场合下可能会出现完全不同的含义,因此原先的那种翻译效果可谓“惨不忍睹”,翻译质量普遍很差,基本上没有什么参考价值,大家可以使用词霸或者Yahoo翻译来随便翻译一两篇英文来实验一下。百度因为“更懂中文”,因此没有全文翻译产品,只有一个简单的单词翻译功能。
  Google翻译是目前中文翻译领域中表现最为突出的一个,主要原因是Google翻译于今年进行了一次创新,使得Google翻译具有人工智能的词义辨识能力,也就是说,通过Google搜寻不同字词同时出现在同一网页的频率来确定字词间的关联性,以这种人工智能的方法来进行真正意义上的全文翻译。
  在Google眼中,一个字词的意义经常能从其他与它并用的字眼而获得,Google有天然的优势—已经索引过的海量资料库,通过对海量的多语言数据进行对比学习,找到不同语言之间的语法和文字对应规律,实现了机器自动学习功能。
  Google的这种智能识别翻译虽然极大地提高翻译质量,但是总的来说翻译水准还是不能达到很高的水平,出现一些技术上的错误也在所难免。例如这次出现的这个翻译错误问题。
  我推测这个错误可能是这么产生的,就是在Google的自动机器学习过程中,主要学习的是一些西方文献以及其翻译结果,由于西方对于中国的评价大多都是负面的,因此某些“不好的字眼”经常和“中国”一道出现,当出现的频率很高的时候,Google就根据以往的常识,将这个“不好的字眼”和“中国”进行了一定关联,于是就出现了这种智能推测,导致了所谓的“Google辱华翻译事件”。
  当然,这个技术问题解决起来也不难,就是扩大Google翻译的机器学习资料库,从不同的环境多分析一些资料(比如也分析一下人民日报的信息),这样推测词义出现的偏差可能会小一些,结果也会更为“中立”一些。
上一页12 下一页

免责声明:凡本站注明来源为xx所属媒体的作品,均转载自其它媒体转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。