浅谈机器翻译的几种方法

新闻资讯

联系我们

顺德翻译公司

联系电话：133-1839-1728
传真：0757-82281353
邮箱：6225197@163.com
地址：佛山市汾江中路144号科华大厦1003室

您当前位置：首页 > 新闻资讯

浅谈机器翻译的几种方法

时间：2020-01-10来源：佛山翻译公司点击：2638次

　　在计算机科学中，机器翻译是人工智能的研究领域。

　　机器翻译( Machine Translation ) ，是使用电子计算机把一种自然语言(源语言， Source Language )翻译成另外一种自然语言(目标语言， Target Language )的一种学科。

　　这新学科同时也是一门新技术，它涉及到语言学，计算机科学，数学等许多部门，是非常典型的多边缘交叉学科。

　　人们一直在寻求更好的解决机器翻译问题的方法，目前机器翻译方法主要有基于规则的机器翻译，基于语料库的机器翻译和混合式机器翻译方法。

　　一、基于规则的机器翻译方法

　　基于分析和转换的机器翻译方法

　　人作翻译时，把一个源语言句子译成目标语言句子，设计到四个基本操作：目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段，这被称为基于分析和转换的机器翻译系统，也被认为是模拟人类翻译活动**恰当的机制。

　　该方法有三个阶段，为分析—转换—生成。一般情况下，分析以句法为主、语义为辅，正确的句法结构转换加正确的词汇译文可以从源语言向目标语言传递完整的正确信息。以句法结构转换附加一定的语义信息，?能够构成转换的基本层次[3]。标准机器翻译系统中句子和短语层次的结构转换是核心，产生式方式的转换规则形式为：

　　S是源语言的某个待翻译单位(句子、短语等等)，S1～Si是S中的下一级组成单位对于S，如果满足条件，则目标语言中有T1～Tj译文构成了相应的等价物T。

　　上述方法称为基于句法的转换方法，因为S1+S2+···Si一般来说就是源语言的的句法结构表示：也可以称为直接转换方法，因为对于每个源语言的翻译组块，都马上给出一个目标语言组块与之对应应该说，?这种转换方法符合人的直觉认识也能够实现。

　　基于中间语言的机器翻译方法

　　基于中间语言的翻译方法是对源语言进行分析以后产生一种称为中间语言的表示形式，然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算机表示形式的系统化，它试图创造出一种独立于各种自然语言，同时又能表示各种自然语言的人工语言。

　　基于中间语言的机器翻译方法的优势是无需一种语言到另一种语言的一一转换，对于多语种的翻译系统可以节约大量的转换知识的手工获取工作量，假如有N种语对需要相互翻译，只要有2N个分析和生成模块就够了。其中一半是源语言分析模块，输入为原文，输出以1L表示：另一半是目标语言生成模块，输入为1L表示，输出为目标语言译文。然而，中间语言的机器翻译方法也常遭到怀疑。因为是否能够构造出表示各种不同的自然语言语法、语义的中间语言至少目前还是未知数。此外，中间语言能不能把各种语言的所有特征保留下来，又能很好生成对应的各种语言也是问题。所以，构造中间语言是一个巨大、复杂的工程，还包含许多理论研究，迄今为止的探索还没有好的答案。

　　基于转换的方法采取了一系列转换生成层次，各种分析多(如词法、句法、语义和语境等)，而且在分析的过程中，会出现许多歧义结构，显然，如果没有好的算法效率就会低;此外，对于那些不符合语法规则的句子，这种方法难于给出正确的翻译结果。

　　二、基于语料库的机器翻译方法

　　基于统计的机器翻译方法

　　基于统计的机器翻译方法，一般不要任何语言学知识，它的基本原理是实现源语言词汇到目标语言词汇的映射。其思路受到语音识别研究的启发，因而应用了类似的方法来实现。研究者用大规模的双语语料库作为基础，对源语言和目标语言词汇的对应关系进行统计，根据统计规律输出译文。这种方法没有使用语言知识，主要特征是概率基于统计的机器翻译方法，一般不要任何语言学知识，它的基本原理是实现源语言词汇到目标语言词汇的映射。其思路受到语音识别研究的启发，因而应用了类似的方法来实现。研究者用大规模的双语语料库作为基础，对源语言和目标语言词汇的对应关系进行统计，根据统计规律输出译文。这种方法没有使用语言知识，主要特征是概率统计与随机过程的方法成为了分析和生成过程的唯一方法。它的主要内容是双语句对的对齐，通过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词(或两个、零个词)的概率。应该说，基于统计的机器翻译方法的出现改变了机器翻译研究的面貌，从而开始了机器翻译研究的新阶段。

　　统计方法**先在语音识别领域取得了成功，机器翻译的噪声通道模型可以视作**早的机器翻译思想，其思路可以这样理解：

　　假设说话者已经用目标语想好了一句话T，但是说出的却是源语言句子S。这样一个过程可以看成为编码过程。而统计的机器翻译就是要从S回推T，可以看成解码过程。这样，统计的机器翻译任务分为两个部分：一是建模，即建立翻译的计算方法以及从双语语料库中估计模型的参数;二是解码，即寻求一种**搜索算法取有关概率计算的**大值。

　　基于统计的方法以大规模的双语语料库为基础，需要训练，一般翻译速度比较慢;而且它还有被怀疑之处——这种方法会不会由于本身的固有属性，不可能有很高的译文正确率。但基于统计的机器翻译方法还是具有很多优势，如开发速度快、周期短、无需人工干预等，在特定领域训练数据充分的情况下翻译性能基本可以达到实用水平。

　　基于实例的机器翻译方法

　　基于实例的机器翻译方法通过结构化的翻译例子直接把源语言的短语和句子与目标语言的短语和句子对应起来，方法的不同使得处理步骤或多或少，但都必须实现源语言到目标语言的转换，其映射关系或者是词到词，或者是短语或句子到与之相应的等价物，或者是一棵句法树到另一棵句法树。

　　基于实例的机器翻译(EBMT)的实现过程简单概述如下：给定源语言输入句子S，在双语语料库C中匹配查找一个**相近的句子S’，则S’的译文就被接受为S的译文。翻译的过程一般就是查找和复现相似的例子，发现和记起特定的源语言表达或相似的表达在以前是如何翻译的，把以前的翻译实例作为主要知识源。

　　三、混合式机器翻译方法

　　基于混合式的机器翻译方法能够很好的利用两种方法的优点，目前非常盛行。混合式机器翻译方法是将基于规则的翻译方法和基于统计的翻译方法结合。在基于规则的技术中引入语料库方法，其中有基于实例的方法、统计方法，通过对语料库的预处理使其转化为自然语言知识库的方法。Rules post-processed by statistics统计方法做后处理，翻译使用规则方法。Statistics guided by rules使用规则方法做前后处理，翻译使用统计方法。

　　混合式机器翻译方法是效果**好的，但目前混合方法中各种模型的耦合方式还比较松散，进行多翻译模型的深度融合可能是未来研究的一个热点。

　　机器翻译瓶颈

　　之前进行的机器翻译的有益的探索中，凡是取得了结果的研究大都努力避开理解语言这一过程。因为这一过程本身涉及到了A的终极目标，机器的智能化。然而，这又是一个无法回避的问题，不能理解语言就不可能进行真正意义上的翻译。

免责声明：文章部分数据、图片信息来源于互联网，内容仅供参考，如有侵权请及时联系我们进行修改或删除处理! 谢谢

上一篇：2020年国内语言服务行业发展趋势

下一篇：我们还需要“翻译腔”吗？