You need to enable JavaScript to run this app.
火山翻译王明轩:从玄奘到5G,机器翻译如何与信息全球化齐头并进
最近更新时间:2023.09.07 11:56:12首次发布时间:2021.09.17 10:34:46

7月24日,由火山翻译冠名赞助的火山翻译·第四届全国机器翻译译后编辑大赛闭幕式暨颁奖典礼以线上直播的形式顺利闭幕。火山翻译团队负责人王明轩先生为大家带来题为《信息时代的机器翻译》的产业应用主题演讲。

王明轩先生的演讲主要围绕信息时代的翻译展开。他指出人类获取信息的方式已经发生变化,当今时代信息量巨大,人在本质上是了解的信息的集合,因而人类有了解更多信息的倾向和趋势。在不同语言的信息交流中,翻译显得尤为重要。王明轩先生希望大家能够顺应时代潮流,抓住机遇,把握趋势,提高效率。

以下是王明轩演讲全文:

非常感谢上海市科技翻译学会和同济大学外国语学院等单位组织的本次大赛。我觉得译后编辑是很有意义的一个主题,是“人工”和“智能”很好的结合。我自己对机器翻译有一定的研究,之前也接触过人工翻译圈,但是没有非常深入。在我看来,今天是非常好的一个机会,能够和大家面对面交流。

image

7月24日,由火山翻译冠名赞助的火山翻译·第四届全国机器翻译译后编辑大赛闭幕式暨颁奖典礼以线上直播的形式顺利闭幕。火山翻译团队负责人王明轩先生为大家带来题为《信息时代的机器翻译》的产业应用主题演讲。

王明轩先生的演讲主要围绕信息时代的翻译展开。他指出人类获取信息的方式已经发生变化,当今时代信息量巨大,人在本质上是了解的信息的集合,因而人类有了解更多信息的倾向和趋势。在不同语言的信息交流中,翻译显得尤为重要。王明轩先生希望大家能够顺应时代潮流,抓住机遇,把握趋势,提高效率。

以下是王明轩演讲全文:

非常感谢上海市科技翻译学会和同济大学外国语学院等单位组织的本次大赛。我觉得译后编辑是很有意义的一个主题,是“人工”和“智能”很好的结合。我自己对机器翻译有一定的研究,之前也接触过人工翻译圈,但是没有非常深入。在我看来,今天是非常好的一个机会,能够和大家面对面交流。

什么是信息

今天我主要会讲两个关键词,一个关键词是“信息”。什么是信息?其实这个词我们每天都会接触到。大家每天都在讲“信息大爆炸”,可能所有人都在想,我每天要获取什么样的信息?或者说,这是一个信息的时代,所以这或许是一个最熟悉不过的词。

但是信息是什么?我觉得这个问题不一定每个人都能答得上来,我自己其实也觉得挺难回答。这个词是比较难被定义的,因为可能社会学、生物学、计算机学等学科都会对信息有一些不同的看法。从社会学的角度简单来看,大部分人认为信息还是人对世界的一种碎片化的呈现。我们怎么去了解这个世界,我们怎么来表现这个世界,这个世界到底有什么,这些所有的内容都可以称之为信息。

image

一般来说,信息会有很多载体,比如大家熟知的文字——这个可能是与我们最息息相关的事物。文字就是信息的载体,但文字本身不是信息。我们的历史、我们的文明都是通过文字来记载。其他的一些信息,比如声音,随着近年来科技发展,都会被记录下来。还有一些多模态的,包括图像、视频,其实都是一些现代化的信息载体。所以总的来说,信息的呈现方式或者说载体是重复多样的,但我觉得核心是比较简单的:是人对世界的一些理解,所有的内容都是信息,大家通过信息去了解世界。

从玄奘到5G,信息量正在急速增长

其实我看到这个主题的时候,我想到了一个人——玄奘法师,为什么会想到玄奘法师?我觉得还挺有趣的——玄奘法师是我看到主题后第一个想到的人。其实他非常伟大,唐朝时前往印度取经。所谓取经就是取得信息,在人类历史的大多数阶段,信息获取的成本都非常高。大家也都比较熟悉这个事件,西游记就是以他为背景。

在我看来,玄奘比小说描述的要伟大得多,整个过程也艰辛得多。在那个年代,不远万里,从长安出发一直走到印度,可能语言不通,风土人情也不了解,就连每天吃饭都会有问题。他游历了五年有余,回来之后又把印度的历史文化等信息都翻译成了中文。至今他提供的这些文献其实也是研究印度文化非常重要的历史依据,所以我觉得他非常伟大,也是早期信息的使者。

image

相比于过去,近现代人对信息的获取更加便利,信息太多,以至于大家整天都在讲信噪比。正是因为信息太多了,我们更关注如何获取更有效的信息。在过去,信息是很稀缺的,也是很宝贵的。从历史上来看,整个信息的发展史经历了四个关键的时间点。

第一个点是语言的出现,有了语言之后,信息才算真正有了载体。

语言和文字其实不是一起出现的。早在远古时代,大家就已经通过语言口口相传,信息就会被传递下去。比如《荷马史诗》,一开始就是以口口相传的形式传播,一代一代传唱下来。

第二个关键点是文字的出现,文字的出现改变了口口相传的这种状态。我们每个人的寿命只有100年,但是整个人类的历史是上万年的,文字的出现得以让远古的信息代代相传。《荷马史诗》能够流传到现在,就得益于后期文字的出现。整个历史,可能过去一千多年主要的事情都是通过文字记载的。

第三个节点是无线电波,或者说电磁波的出现改变了这些,大家开始用波去传递信息。

从物理学上,所有的物体都是波,这里特别指的是传递信息的电磁波。不同于前两个节点,是信息载体的变革。电磁波改变了信息传递方式,从电报到电话,再到手机,整个信息传递的成本变得极低。信息传递成本变低并不是一件应该被习以为常的事情,大家每天看电视、玩手机,不觉得信息的获取有什么难度,其实在古代这个事是非常难的。

一个最有名的例子可能就是马拉松长跑。这个运动是为了纪念第三次希波战争,在马拉松平原,雅典军一举击溃了波斯军。捷报需要被传递回城邦,为此信使一口气跑了42千米,抵城时只喊了一声:“我们胜利了!雅典得救了!”便力竭倒地而死。这个信息传递的代价就是人的生命。在中国古代,信息传递也很难。在唐朝“一骑红尘妃子笑,无人知是荔枝来”。大家传递信息通过通过官道,快马加鞭进行传递,这个信息是单向的。在无线电波出现之后,所有的事情就变得非常简单。1858年,美国和欧洲的海底电缆建成,短短的几分钟的时间,信息就可以从北美洲传递到欧洲,它是一个质的变化,彻底改变了人类社会。这是信息发展史上的第三个变化,信息传递速度有了飞跃的发展。

image

到了近代,又迎来了第四次突变。标志性事件就是互联网兴起。

互联网的兴起依托于整个电气革命,但它有一个很不一样的地方:信息传递不再是点对点或是自上而下的传递,也就是信息的流动方式已经变化了。它变成了一个复杂的网络:信息不再有中心节点。比如说我们不仅仅通过新华社、法新社,我们是通过所有的渠道去了解这个世界,包括微博,包括短视频,包括与周围人的聊天。我们不但获取信息,每个人也都是信息的发送方。所以整个人类获取信息的获取和产生方式已经发生了变化。这正是因为如此,信息的获取变得廉价。我们可以回想一下,在零几年的时候,我们只能靠发短信来联系,发彩信都很困难,也很贵。到如今大家可以发微信语音、发短视频、发vlog,每天产生大量的信息,但是完全不需要考虑成本了。之前我看过一个挺有意思的统计,YouTube上每天上传的视频量足够让一个人看一万年,现代社会的信息是如此巨大。

image

翻译行业的进步与信息全球化相辅相成

我讲了这么多,可能大家会想:这个事情和翻译有什么关系?和机器翻译有什么关系?我认为这个关系是非常紧密的。翻译正是信息传递的一个瓶颈。玄奘法师从印度取来真经,用了几十年时间翻译,当时的中国人才能看懂其中的内容。那么如今海量信息的情况下,作为翻译人员如何高效传递跨语言的信息呢?马克思讲过两句话,我觉得非常有道理。第一句话:生产力决定生产关系,生产关系是要匹配生产力的。到了现在的信息发展的阶段,不管是5G的到来,还是整个基础设施的完善,社会的生产力已经发展得很领先了,但是翻译整个行业的生产关系还没有发生变化,它可能会遇到一个变革期。第二个点,我后面也会讲到,就是什么是价值。

先回去看第一个点。生产力已经发生了变化,就是人类获取信息的方式已经空前发达,信息量巨大,这个事情其实是近十年之内发生的。但是我和做翻译的一些朋友聊天,我们发现,整个翻译行业的组织形式,运作方式,包括盈利模式等等其实可能和100年前是一样的。严复 100 年前怎么做,甚至玄奘1000 多年前怎么做,那么可能我们今天大家也在用同样的方法,目前的生产效率和 1000 年前相比没有质变。当然,区别在于我们获取翻译的素材没有那么艰辛了,我们能更容易得到各种信息,然后去做翻译。

翻译行业可能会发生一些比较大的变化,但这个变化在我看来是有利的,只会朝好的方向去发展。

首先从需求端来讲,需求变大了。为什么说需求变大了?因为人本身就有了解外部世界的一个诉求。我们所有的人都喜欢八卦,所有人都想了解更多。看过《进化论》或者《信息简史》的朋友,可能会了解到这个信息。八卦,其实是人的天性,这是一件好事情——我们想要去了解更多。

八卦,本质上是好奇心的投射。人其实想要了解更不一样的信息,而你不知道的事情是你更想了解的。从信息论的角度,这个概念叫熵,就是我们对一件事情的不确定性程度;或者指如果我们觉得某件事发生的概率很小,但这件事情发生了;或者说,我们不知道明天会不会下雨,如果我们能预测出来,这个事情的熵就等于是被降低了,不确定性降低了。信息就是可以降低熵的东西。

image

当然,信息的有效性也是可以被量化的。在社会的迅速发展下,大家获取信息的诉求是非常高的,大家想要去了解更多有价值的内容。我们对周围的环境是非常了解的,我们可能真正想了解的是我们不熟悉的地方。我们想要去了解不同国家及其文化——每一个人都可能有开眼看世界的诉求。这些信息,会更吸引大家,也会带来更多不一样的东西。

比如西瓜视频或者其他内容平台,其实都很关注内容全球化内容。我觉得这个事情随着新时代的发展,比如5G时代的到来,信息传递成本进一步降低,会带来更大的变化。在信息在第一个时代和第二个时代,也就是语言和文字时代,我们叫物质文明,在这个阶段,世界上最重要的计量是黄金。接下来在电气革命这段时间,世界上最重要的计量是石油。再到现在这个信息时代,我认为这个世界上最重要的东西是信息,比黄金和石油都要珍贵。

在这个背景下,语言的互通会变得越来越重要。对于翻译来说,就会有一个非常好的机会。如果把视角看大一点的话,这些诉求不仅仅来自中国。世界上有很多国家,他们的信息获取比我们困难很多,因为他们没有那么好的教育体系培养出大量的专业翻译人才,这块是空白的,整个长尾需求有非常大的市场。对于每一个人翻译人员来说,这是一个充满未知的和希望的好时代。

image

人工翻译是否会被机器翻译取代?

回到翻译这个主题上。其实翻译是一个很古老的主题。翻译,甚至是机器翻译的思路很早就有了。

大概两三千年前,比如雅典人就已经在思考怎么用机器翻译,因为整个西方的哲学非常关注人和自然的关系,所以他们也在想能不能做机器翻译。到近代机器翻译的诞生极大地促进了内容互通的需求,就是说,很多事情以前做不到,而现在这种规模可以做到,大家也不用去纠结地评价人翻得好还是机器翻得好,或者机器会不会取代人,我觉得这个问题本质上是没有价值的一个讨论。一是现在远远没有到那个时候,而且我觉得这是一个互补的关系:随着市场的扩大,每个人都会从这个事情中获利。

image

我举一个最简单的例子吧,因为我是做计算机的,编写程序,也就是写代码是我们的日常工作,把代码看成一种语言,我们其实也是在做翻译。不同的是,写代码比翻译要简单得多,所有的代码语言是规范化的。不管是Python、C++, 两、三个月就可以速成,但是我不太相信一个人可以两个月速成俄语或日语。这些年,也有很多人在做代码智能,类似于做机器翻译,就是在探索,能不能让机器去写代码。这对我们程序员来说,是一件非常好的事情,因为可以极大提高生产效率,让我们更聚焦于思考,而不是代码语言本身。今天很多翻译从业者都在做译后编辑,从这个角度看,机器翻译本质上就是你们的生产工具。从来没有听说过生产工具可以代替人。对于程序员来说,现在代码越来越智能,大家效率越来越高。

这对我们来说是一件好事情吗?我们需要担心有一天计算机足够智能,我们会被淘汰吗?

我觉得不会。

因为人是有创造性的,翻译也是一件有创造性的事情,这件事情机器很难做的非常好。从程序员这个行业来说,我们很欣喜地观察到,随着整个行业的发展,在2000年写代码和现在写代码完全是不同的体验。现在写代码会有各种提示,很多简单的部分都能自动生成好,我们只需要写关键的部分就可以了。整个行业会变得更差吗?我觉得也不是,相反地,技术对人类社会的改造会越来越大,大家会越来越多地享受到计算机带来的福利,计算机从业人员越来越多。

把握趋势,“智能翻译”是未来

在我看来,未来很重要的一件事情,就是我们需要用最先进的科技作为生产工具,也需要自己去适应这种环境,然后把这件事情做好。从这个角度看,我们 AI 从业者,尤其是机器翻译,需要努力提高生产工具的水平,而各位翻译专家,需要用好工具,创造更大的价值。简单说,我们是造车的,各位是开车的。如果我们通力合作,翻译水平和效率提升了,整个社会的信息传递可能会发生质变,信息传递可能会迎来第五个时代,一个信息流动跨越语言的时代。

对于个人来说,了解最新技术也是必要的。之前我也提到过,在生产力与生产关系里面有个很有意思的点:商品的价值凝结在商品中无差别的人类劳动,是对平均生产力的衡量,对于个体要高于社会平均化的生产力才能拿到超额利润。所以我觉得对于翻译人员来说,学会利用生产工具提高自己的效率可以让自己变得更有竞争力。而个人生产力的提升能带来整体效率的变化,让整个行业发生质变,它能够真正促进信息更高效流动。这些主要就是我对译后编辑的一些看法。

我们现在处在一个新的信息大爆炸的时代,现在的信息比几十年前多了上万倍, 然而现在的翻译人员没有比过去多一万倍,所以或许这个行业需要更快或者更多的投入,更激进的发展。

我现在为大家举一些技术发展带来的需求增加的例子。

比如直播,以前没有这个行业,但是现在伴随着这个行业的发展,跨语言的需求也就出来了。包括我们之前也与海内外直播平台合作,它们就有很多这种诉求。这种诉求是长尾的,通过人来进行同传,可能是很难解决的,因为专业的翻译人员可以支持一些头部需求,但是现在这种网状的信息传播形式,让每一个人都可能会有跨语言的诉求,对于翻译从业者的数量很难满足这么多需求。

另外,现在视频内容的传播也出现多语种的需求:这个视频来自英语国家,我们需要为其制作中文字幕以便得到更可观的阅读量,它能够带给大家带来更多信息。

image

最后我做一下总结。在我看来这是一个非常好的时代,信息化的大爆炸产生了越来越多的内容。因为人的天性,我们都希望去更深入地了解世界,了解多语言内容,来增加我们的信息量——人其实本质上就是你了解的信息的一个集合。你了解的边界越大,对于每个人也会带来更大帮助,我认为这是生物的本能。在这种本能驱使之下,不论世界正在走向全球化或逆全球化,人总是会想要了解更多的信息,在这个大趋势下翻译或许就会越来越重要。所以我觉得未来是属于把握这种趋势的人,他们能够不断提升生产效率,然后真正促进对人类对各种信息无差别的接收,这是一种非常好的状态。

这就是我今天的分享,谢谢大家。