厉害!微软翻译突破100+ 语言和方言!快来看看是否有你的家乡~
近日,微软 Azure 认知服务翻译的语言列表又添加了12种全新的语种和方言,微软翻译可以提供翻译支持的语言总数已达103种!
新增语言的母语使用者合计达8,460万人,包括巴什基尔语、迪维希语、格鲁吉亚语、吉尔吉斯语、马其顿语、蒙古语(西里尔文字)、蒙古语(传统文字)、鞑靼语、藏语、土库曼语、维吾尔语和乌兹别克语(拉丁文字)。微软亚洲研究院为其中的七种语言和方言——迪维希语、蒙古语(西里尔文字)、蒙古语(传统文字)、藏语、土库曼语、维吾尔语和乌兹别克语(拉丁文字),提供了核心技术支持。目前最新版的微软翻译可以在全球56.6亿人所使用的不同母语之间实现文本文档的互译。
打破语言障碍:
实现100+语言翻译的自由
微软翻译的核心使命是打破人与人之间的文化和语言障碍。为实现这一目标,微软的研究员们不断为这项服务增添新的语种和方言,同时确保所支持语言的机器翻译达到并超过我们设置的高质量标准。
微软研究院在20多年前首次开发出了机器翻译系统。2003年,该机器翻译系统将整个微软知识库(Microsoft Knowledge Base)从英文翻译成了西班牙文、法文、德文、日文,并在微软网站上发布了译文版,使之成为当时互联网上规模最大、面向公众开放的初始机器翻译应用。
此后,微软以统计机器翻译(SMT)模型为基础,对系统做了进一步改良,并通过 Windows Live Translator、Translator API 以及作为微软 Office 应用程序的内置功能,向用户提供翻译服务。
多年来,微软已将世界上诸多常用的语言和方言添加到了微软翻译的系统中。而随着人工智能技术的发展,微软研究院开始采用神经机器翻译(NMT)技术,将所有机器翻译系统迁移到了基于 Transformer 架构的神经模型上,因此翻译的流畅度和准确性获得了大幅提升。
引入 Transformer 架构的 NMT 技术,不仅可以利用包括单语语料数据在内的更多数据来训练超大模型,提升翻译的整体质量,也为构建机器翻译模型开辟了新的路径,让模型可以借助比先前更少的数据来进行训练。多语言的 Transformer 架构可以利用来自其他语言(通常属于相同或相关的语系)的资料扩充训练数据,为低资源语言构建翻译模型。
当全部技术都已准备就绪的同时,机器翻译系统还必须要有一套数字化的并行文档,其中包括目标语言版本的文档,以及另一种已纳入翻译服务的语言的翻译版文档。但对于很多小语种来说,这些并行文档中的平行语料很难获得。幸运的是,微软通过与语言社区的合作伙伴展开合作,可以获取人工翻译的文本,收集低资源语言的数据。这些社区伙伴通常是在各自社区任职的志愿者,他们通过咨询社区成员和长者,不辞劳苦地收集双语词句。与社区合作伙伴的接触始于2010年,当时微软与社区负责灾难响应的人员合作,在海地发生毁灭性地震后短短10天内,就为海地克里奥尔语构建了一个翻译系统。从那时起,越来越多的社区伙伴加入了社群,帮助微软创建了多个语言系统,例如苗族语、乌尔都语、玛雅语、毛利语和因纽特语等等。
尽管如此,缺少足够的平行语料依然是小语种语言翻译的最大难点。多年来,微软亚洲研究院承担了多个小语种语言和方言的模型构建工作,将新技术融入其中,帮助解决语料问题。微软亚洲研究院首席研究员秦涛表示,“基于源语言和目标语言的平行语料及单语语料,我们在训练阶段将多语言模型与 MASS 预训练模型相结合,同时再利用相关大语种的丰富语料及单语语料来提升模型的翻译质量。”
▲图 1:2016年,微软利用神经机器翻译(NMT)技术提高了翻译质量,2019年,微软采用 Transformer 架构为低资源语言构建了模型
Azure 认知服务翻译工具的技术能力
Azure 认知服务翻译工具将 NMT 模型纳入微软产品中,通过文本翻译和文档翻译 API,为用户提供服务,将纯文本和复杂的文档从一种语言翻译成另一种语言。Azure 认知服务翻译工具还包含自定义翻译服务,该服务允许用户使用自备翻译存储器构建自定义的机器翻译模型,用于翻译他们在各自业务及相关领域中所使用的特定术语。用户可以通过文本和文档翻译 API 使用这些自定义机器翻译模型。为了实现音频或语音内容的翻译,Azure 认知服务的翻译工具和语音工具紧密集成,并通过 Azure 语音 SDK 为语音翻译和多设备对话提供支持。
Azure 认知服务翻译工具及其支持的产品被用户广泛采用,用于网站内容和 App 的本地化、为业务分析的对话和内容及法证调查的内容提供翻译等诸多应用场景。该服务还无缝集成到微软的许多产品中,每个人都可以随时通过他们所选择的语言来使用和创建内容。集成了翻译服务的微软产品包括 Microsoft 365中的文本和文档翻译、微软 Edge 浏览器中的网页翻译、SwiftKey 中的消息翻译、LinkedIn 中的用户提交内容翻译、微软翻译 App 中的多语言对话翻译等等。
消除语言障碍是承诺,但仍任重道远
推荐阅读
精彩活动
关注公众号:拾黑(shiheibook)了解更多
赞助链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/