汉越机器翻译方法与难点


打开文本图片集

摘要;机器翻译作为信息时代的产物已经愈来愈成为人们生活所必需的工具。计算机要实现“理解”语言以及语言“转换”的功能,歧义的消解是其所面临的最大难题。通过对越南语语言特点分析,本文介绍了目前的机器翻译方法,并提出了汉越机器翻译中存在的难点和可行的解决思路。本文对于认识汉越机器翻译的现状和难点做了有益介绍,并提出了相应的解决思路,可以为相关研究者提供参考。

关键词:机器翻译;越南语;语言特点

中图分类号:TP391       文献标识码:A

文章编号:1009-3044(2019)17-0204-03

开放科学(资源服务)标识码(OSID):

Abstract: Machine translation, as a product of the information age, has become an increasingly necessary tool for people"s lives. In order to realize the function of “understanding” the language and “transforming” the language, the resolution of ambiguity is the biggest problem. This paper aims introduces current mainstream methods of machine translation and analyzes the difficulties and corresponding solutions of machine translation between Chinese and Vietnamese. This paper can provide references for related researchers.

Key words: Machine translation; Vietnamese; Language features

1 引言

作为信息时代的产物,机器翻译已经成为人们生活所必需的工具,它也在无形之中改变着人们的生活方式。随着全球化的突飞猛进,机器翻译已经深入到人类日常交际、科学研究、商业交流等方方面面。近些年来,随着深度学习的兴起,机器翻译效果也得到了巨大提升。然而,机器翻译远未得到完全解决,尤其对于小语种而言,其机器翻译效果往往不尽如人意。对于汉越机器翻译而言,由于两种语言之间的差异性和深度学习方法的局限性,其翻译效果还存在着诸多问题。对汉语与越语两种语言的差异性进行分析,对于提升汉越机器翻译的效果有着很强的现实意义。

2 机器翻译方法

机器翻译是应用计算机来进行不同语言之间的翻译。总体来看,机器翻译方法可分为经验主义和理性主義两种方法。20世纪30年代初,法国人阿尔楚尼首先提出了用机器进行翻译的想法。随着计算机的出现,机器翻译逐渐成了研究热点。首先兴起的是以基于转换的机器翻译方法为代表的理性主义方法。但由于有限的规则并不能描述语言的复杂性,再加上随着规则的增多,规则之间的冲突也开始增多,使得基于转换的机器翻译方法在达到瓶颈之后逐渐淡出研究者视野。从20世纪90年代开始,基于语料库的机器翻译方法逐渐成为机器翻译方法的主流,主要代表有基于统计的机器翻译方法、基于实例的机器翻译方法和近些年兴起的基于神经网络的机器翻译方法。对于理性主义方法与经验主义方法而言,两者各有优缺点:单纯的语言规则难以涵盖大量的语言现象,且基于不同语言的差异性而制定的词汇库、语法规则库、语义规则库往往规模大、开发成本高;而基于语料库的方法虽然能够依靠大规模真实文本涵盖大量的语言现象,但大规模、高质量对齐语料库却难以获取,且模型的迁移性较差。因此在实践中,常采用基于规则与基于语料库相结合的方法以提升翻译效果。

2.1 基于转换的机器翻译方法

基于转换的机器翻译方法包含三个步骤:源语言分析,源语言与目标语转换,目标语生成。不同的基于转换的机器翻译方法在上述三个步骤中涉及的语言学深度不同,因此也产生了不同种类的机器翻译方法。其中,直接翻译法忽略了句法、语义与语境信息,通过一部词典将源语言直接转化为目标语言。这种不考虑句子句法语义而只依赖于词典的翻译方法准确性、拓展性较差,因此使用范围较为狭窄。更为深层次的基于转换的机器翻译方法则会对源语言进行句法层面乃至语义层面的分析,从而使机器翻译效果更好。该方法先将源语言句子转换为源语言的一种表达方式,再将源语言的内部表达转换为目标语言的内部表达,最后按照目标语言的内部表达生成目标语言。整个转换的过程需要对句子进行词汇分析、句法分析、语义分析、语篇分析等,其所生成的中间表达方式也是一种句法-语义表达式。其具体翻译步骤如图1所示。

2.2 基于中间语言的机器翻译方法

基于中间语言的方法与基于转换方法不一样的地方在于中间语言方法是将源语言转换为一种新的语言的中间表达式,并以此为基础再转换成目标语言。这种中间语言对于不同系统可以是灵活的,并没有被固化。在多语种翻译时可以起到提高效率的作用,将原有n(n-1)个翻译过程减少到2n,并且在译文质量、理解性等方面均有所改善。如图2所示。

2.3 传统的基于语料库的机器翻译方法

经验主义的方法主要包括基于统计与基于实例的机器翻译方法。基于统计的翻译方法最早由Weaver在1949年提出,其主要采用了信息论思想,将翻译过程看作是编码与解码的过程。通过将大规模双语平行语料库中出现的语言现象以概率的方式统计计算出来,从而得到从目标语言到源语言的翻译概率,即翻译模型。再针对目标语言选择特定的语言模型进行训练,从而得到语言模型。最后,结合翻译模型与语言模型进行计算,从而筛选出最贴合实际的译文。目前,经典的翻译模型主要有IBM的研究者建立的五种翻译模型,可以在GitHub上下载使用。经典的语言模型则主要有n元语言模型与近些年来兴起的神经网络语言模型。

基于实例的翻译方法则是将双语对照的实例导入到实例库中去,当输入源语言句子时,系统自动搜索实例库,从而获得与当输入句子最相近的源语言句子并找到其对应的译文句子,再根据输入句对译文句子进行调整以输出最终的翻译结果。基于实例的机器翻译方法的关键点在于将输入句子与实例库中源语言句子进行相似度计算,从而找到与输入句子最相似的源语言句子。目前,基于实例的机器翻译方法已经广泛应用在“机辅人译”系统中。

总体来说,这两种方法各有利弊,对前者来说其语言模型与翻译模型的训练需要大量的高质量双语对齐语料作为支撑,而后者利用实例库的方法尽管质量效率高,但在多领域、多语种翻译的应用上,则需要大规模的实例库支持。

2.4 基于神经网络的翻译方法

近年来随着深度学习的兴起,神经网络方法在图像识别、语音识别以及自然语言处理的各项任务中已取得较大突破与进展。与传统的基于统计的机器翻译方法相比,神经网络翻译系统(NMT)在对语言规模的要求方面要更加严格,但其学习到的深度则是统计机器翻译所不能及的。现阶段神经机器翻译中比较常见的网络架构主要有RNN(recurrent neural network,循环神经网络)、CNN(convolutional neural network,卷积神经网络)、LSTM(long-short-time memory,长短时记忆网络)等。其主要通过编码解码的方式将源语言句子的向量表示映射到目标语言的输出序列。

3 机器理解语言的难点

计算机要想实现两种语言间的转换,首先需要“读懂”源语言,然而在这个过程中歧义的存在是计算机所面对的最大障碍。歧义分为两种,一种是句子本身就存在歧义,另一种是句子本身没有歧义,但对于机器而言存在着歧义。如“北京大学生”本身是不存在歧义的,其分词结果就是“北京/大学生”。但对于机器而言,“北京大学/生”也是一种分词结果,因为“北京大学”与“生”都是汉语词汇。但对于机器翻译而言,其面临的歧义问题主要指后者,即句子本身是没有歧义的。歧义主要分为交集型歧义和组合型歧义,交集型歧义是指ABC可以分为AB/C、A/BC两种,如“北京/大学生”与“北京大学/生”。组合型歧义则是指AB可以理解为AB或者A/B。如在“他马上下来”中,“马上”就存在组合型歧义。对于越语这门语言,歧义分布在词汇、句法结构、语义的各个层面。

3.1 词汇层面歧义

越南语同汉语一样都是孤立性语言,尽管越南语每个音节之间都有空格隔开,但其实质就相当于汉语中在所有字之间添加空格。汉语的分词对应到越南语则表现为“聚词”。与汉语一样,越南语中存在着众多一词多义以及同形异性(词形相同词性不同)的情况。例如汉语中的“把”一词,既有持、拿又有端着、端起之义,越南语中的“chảy”一词,既可以表示跑这个动作,也可以用来形容商品的畅销程度;汉语中的“研究”一词,对应于越南语中的“nghiên cứu”(研究)同时都可以作名词以及动词。由词汇层面的歧义所造成的机器在做分词和词性标注上的困难是很难克服的,仅依靠建立规则库来解决歧义问题必然会造成规则库规模过大、执行效率低等问题。

3.2 句法结构层面歧义

汉语、越南语在对所属关系的表示方面与英语不同,英语有明显的标志性词语用以界定,而汉语、越南语则没有特定分隔或标志性词语,因此存在着结构方面的歧义。例如汉语中“三个北京大学和清华大学的教授”对应于越南语“ba(三) giáo sư(教授) của(的) Đại học Bắc Kinh(北京大学) và(和) Đại học Thanh Hòa(清华大学)”这样的短语表达中,“三个”是界定在北京大学还是北京大学和清华大学则需要参考上下文语义进行理解。在机器分析这类结构时可用多种句法树来表示,通过经验主义的方法,利用大规模语料库构建语言模型对每个词之间的转换概率进行计算,从而选择一条概率最大的路径,进而寻找出最符合人们思维认知以及上下文语境的结构。

3.3 语义层面歧义

语义的不确定性、模糊性无疑使得计算机无法像人脑一样从认知层面理解语句的真正意思。再者,两个民族之间风俗习惯的差异性必然会导致两种语言在表达上的不同。例如将“炸薯条”翻译成越南语时需要考虑其是一种菜名还是一种行为动作。这需要结合语境来考察,而语境信息如何融入系统中则需要知识库或者统计概率的支持。但目前的系统都无法做到对语境的充分理解与应用。

4 汉-越双语转换难点及解决方法

越南语是一种孤立语,属南亚语系越芒语族。由于受汉文化影响较大,越南语同中文具有一定的相似性。一是同为孤立语,缺少形态变化以及语法标记,语法的表示通常采用虚词、词序等方式。二是越南语中存在大量的汉越词,不论是发音还是结构都与中文保持高度的同一性。三是语序都采用“主语+谓语+宾语”形式,在语言形式上具有相通性。与英文相比,汉、越语对句法结构以及语法规则的限定性远不如英文,这就给汉、越语自然语言处理带来了一定的困难,同样直接影响到汉越机器翻译任务之中。

4.1 人称代词的多样性

越南是一个十分讲究尊卑的国家,这在越南语人际称谓语中得以体现。例如同辈间比自己年长的男性统称为anh+名,女性统称为chị+名,自称通常用em;对父辈父亲称bố,母亲称mẹ,自称con。在百度翻译汉-越翻译中输入“小明应该去上小学”这句话,软件翻译给出的结果为“phải đi trường tiểu học”,与人工翻译出的“Con Minh phải đi trường tiểu học”相比,“小明”未翻译出来。解决该问题首先要处理好未登錄词中人名的识别问题,只有将汉语中的人名识别出来才能利用人称关系将规则嵌入到翻译系统中去。因此覆盖度达到一定规模的词表是一项十分重要的语言资源,而小语种低资源的建设同样需要耗费大量人力物力,因此上层任务都需要扎实的基础性资源的支撑。

4.2 长距离依赖

汉语中多存在复句等较为复杂的语言成分,句子的冗长使得在翻译过程中处理分句主语对主句主语的依赖、指称代词对上文的依赖等长距离依赖问题是自然语言处理难以解决的问题之一,在这一点上越南语与汉语较为相似。目前解决该问题的相关研究中做得最多的是基于循环神经网络的机器翻译,其主要的处理方法为通过将上文的信息与下文共同输入到网络当中,从而将上文的信息融入下文的处理过程中来。但基于循环神经网络的机器翻译存在着梯度爆炸与梯度弥散的问题,即上文的信息通过多次循环后,其对下文的影响往往很小。为解决这个问题,现阶段主流的机器翻译系统大都基于长短时记忆网络。

长短时记忆网络是循环神经网络的一个变体,其不再单纯地将上文信息传递给下文,而是采用了门限技术。通过将上文的信息设置三个“门”:输入门,输出门和遗忘门,从而决定哪些信息被传递给下文。通过使用门限技术,长短时记忆网络很好地解决了梯度弥散和梯度爆炸问题。但长短时记忆网络对于长距离依赖问题的解决是有限的,其对过长的依赖问题也不能很好的解决。而越南语中存在着大量的长距离依赖现象,这就要求翻译系统对句子结构能够很好地进行分析,而这目前仍然是一个难点。

4.3 复杂定语后置

越南语与汉语间一个重要的不同点是越南语的定语后置:除了一些表示数量、部分与全部、单位词需要前置,越南语中的其他定语都需要后置。例如汉语中“中华人民共和国”翻译成越文则是“nước(国) Cộng Hòa(共和) Nhân dân(人民) Trung Hoa(中华)”,越文翻译正好与汉语语序相反。汉语中存在的定语过长而导致的中心词靠后的问题对应于越南语中就表现为需要读者“从后往前读”。除此之外,越南语定语成分的顺序有所固定,通常先次要后主要,先小范围后大范围。由此,机器在判断哪些是次要、小范围,哪些是主要、大范围时必然不可能具备像人一样对大小范围的认知能力,若仅仅依靠汉语定语语序倒序输出越语译文往往会出现一些问题。例如,在越南语中存在这样的特殊情况:翻译“经济社会”一词中,越语译文应为“kinh tế(经济) xã hội(社会)”而并非“xã hội(社会) kinh tế(经济)”(此时定语前置)。对于此类特殊情况可以将其收入到词典中去,尽管词典规模过大会影响系统效率等问题,但却可以对其进行有效的规避。此外,越南语定语的复杂性特征使得机器很难将其边界识别准确,对下一步进行句法分析等高层次任务造成阻碍。解决此类问题最重要的则是翻译系统对句子结构的正确分析,判断动词短语是做名词的定语还是整句话的谓语、介词短语是修饰名词短语或动词短语还是做句子状语,这些对于翻译的准确性至关重要。

4.4 虚词的处理

越南语与汉语一样,都是缺乏形态变化、曲折变化的孤立性语言,时态、人称、数等的变化只能通过虚词来完成,因此虚词承担着重要的句法功能。例如汉语中“我吃过饭了”表示的是一种完成时状态,对应于越语则表示为“Tôi(我) đã(已经) ăn(吃) xong(过) rồi(了)”,“đã”与“过”“了”的功能相同都表示完成的状态,除了这些表示时态的虚词之外还包括表示处所、方向、方式等。在处理汉、越语虚词方面,一般情况下计算机要对将要处理的语料进行预处理,将句子中可能缺少或省略的虚词补充完整。机器在识别出实词之后往往将剩下来的词视作虚词,通过建立虚词用法词典,将虚词及其用法录入到词典之中,并制定一系列虚词用法规则便于机器进行模式匹配。另外,利用越南语与汉语在虚词特点的相似之处也可直接建立汉-越虚词映射表,例如过-đã,未-chưa,将-sẽ,从-từ等双语映射对,省去不必要的分析和模式匹配环节。

5 结束语

尽管就目前来看机器翻译已经做到了比较纯熟的程度,但涉及越南语方面的研究还是少之又少,汉越对译仍存在着许多较为突出的问题需要我们解决。机器翻译的难点必然与不同语种的特殊性所对应,要解决好所有可能的问题是一项繁重的工程。汉越机器翻译不仅仅要在基础资源建设上下功夫,还应当针对两种语言的相似性与差异性找出既能省去烦琐工作的有效方法以及具体问题具体分析的实用性经验,在两者之间寻找平衡点。尽管深度学习的方法已成为主流,但自然语言不同于声音与图像,其内部隐含的特征丰富使得神经网络的方法难以做到物尽其用。在深度学习方法达到一定瓶颈之后如何将

语言知识融合进去将会是有所突破更进一步的关键所在,因此语言特征的分析及应用是汉越翻译系统改进发展的必然趋势。

参考文献:

[1] 刘颖. 计算语言学[M]. 清华大学出版社, 2014.

[2] 刘云.英汉机器翻译中汉语自动分析的难点[J].长江艺术, 2009(1):111-115.

[3] 曹英華,郝进仕.汉语机器理解与汉英机器翻译[J].内江师范学院报, 2006, 21(1):55-57.

[4] 张政.机器翻译难点所在[J].外语研究, 2005(5):59-62.

[5] 詹卫东,常宝宝,俞士汶.汉语短语结构定界歧义类型分析及分布统计[J].中文信息学报,1999, 1999, 13(3):10-18.

[6] 谭志词, 徐方宇, 林丽. 基础越南语(3)[M]. 世界图书出版公司, 2013:95.

[7] 戴新宇, 尹存燕, 陈家骏,等. 机器翻译研究现状与展望[J]. 计算机科学,2004, 31(11):176-179.

[8] 戴新宇, 尹存燕, 陈家骏,等. 机器翻译研究现状与展望[J]. 计算机科学,2004, 31(11):176-179.

[9] 刘群, 俞士汶. 汉英机器翻译的难点分析1[C]// 中文信息处理国际会议,1998.

[10] 程节华, 戴新宇, 陈家骏,等. 汉英机器翻译中时体态处理[J].计算机应用研究,2004, 21(3):79-80.

[通联编辑:梁书]

推荐访问:机器翻译 难点 方法