公元652年,玄奘在慈恩寺西院建造了大雁塔,用于收藏他从天竺带回来的657部佛经经卷,之后的12年里玄奘一直在此翻译佛经。
当巴别塔出现的时候,人类开始有了不同的语言,而大雁塔出现的时候,人类已经在不同的语言中开始翻译。
今天我们换个角度来聊机器翻译,从历史角度来看看这个比人工智能概念诞生还早的自然语言处理任务。
一、从传说开始的故事
《圣经》中记载了这样一个故事:
人类曾经联合起来兴建能通往天堂的高塔——巴别塔,为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。
实现不同语种之间的无障碍沟通,一直都是人类终极梦想之一。
在认识到不眠不休穷尽人类一生的力量,也只能掌握几十种语言时,很多科学家开始思考,是不是可以用机器来帮助人们去解决沟通问题?
这一问题在1933年首次得到了答案,苏联科学家Peter Troyanskii向苏联科学院介绍了能将一种语言翻译成另一种语言的机器。
这个法明很简单,在当时并未受到苏联政府的重视,他们觉得这台拥有各种语言卡片的机器没有实际作用。
Troyanskii用20多年的时间将这台翻译机器发明出来,后死于心绞痛。
我们今天能如此清晰的复述这段故事,是因为在1956年苏联2位科学家发现了Troyanskii所创造的翻译机器,并将它公之于世。
如果不是这样,或许我们到现在都不会知道,早在1933年就有人想过将语言卡片、打字机、老式胶片组合在一起,发明一台翻译机器。
二、萌芽于冷战中的军备竞赛
正像计算机是被战争催生出一样,机器翻译技术的萌芽也与军事有关。
1947年杜鲁门主义出台,美苏冷战正式开始,对于俄文情报资料的翻译,需求量很大。
1954年,美国乔治敦大学在IBM公司协同下用IBM-701计算机首次完成了英俄机器翻译试验,拉开了机器翻译研究的序幕。
当时的系统,仅能容纳250个单词,遵循6条语法规则,翻译49个句子。
但这一切已足以点燃科学家们的激情,机器翻译成功引起了苏联、日本和欧洲国家的研究兴趣。一时间,各国政府纷纷拨款,全球机器翻译热潮兴起。
然而,技术的发展都是曲折艰难的,和这种狂热的关注相比机器翻译的研究进展着实缓慢,美国科学院成立了语言自动处理咨询委员会(ALPAC)于1966年公布了一份名为《语言与机器》的报告,该研究否认机器翻译可行性,机器翻译研究进入萧条期。
虽然这一阶段的机器翻译发展并不顺利,但还是为现代自然语言处理技术打下了坚实的基础。
三、20世纪末的又一次兴起
20世纪70年代IBM沃森实验室的贾里尼克,他提出了基于统计的语音识别框架,这个框架对语音和语言处理都有着深远影响,它从根本上使得语音识别有实用的可能。从此,自然语言处理开始走上统计方法之路。
1993年,IBM的Brown等提出基于词对齐的统计翻译模型,基于语料库的方法开始盛行,标志着第二代机器翻译技术——「基于统计的机器翻译」开始兴起,其核心在于设计概率模型对翻译过程建模。
统计机器翻译避开了语言规则,使用大量的双语文本,建立两种语言的平行语料库,虽然避开了繁杂的语法规则,但需要大规模的语料库,这在当时非常难以实现。
2014年谷歌和蒙特利尔大学提出的第三代机器翻译技术,也就是基于端到端的神经机器翻译,标志着第三代机器翻译技术的到来。
2016年月28日,谷歌发布新的神经机器翻译系统GNMT,同时支持PC端和移动端,这项服务背后的核心算法是基于短语的机器翻译。
同时期国内科技企业在机器翻译上的进展也非常迅速,以语音和语义理解见长的科大讯飞在2014年国际口语翻译大赛IWSLT上获得中英和英中两个翻译方向的全球第一名,在2015年又在由美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩。
自此,神经机器翻译开始大规模走向应用。