揭秘 阿里 机器 翻译 团队 : 拿下 5 项 全球 冠军 , 每 天 帮 商家 翻译 7.5亿 次 原 标题 : 揭秘 阿里 机器 翻译 团队 : 拿下 5 项 全球 冠军 , 每 天 帮 商家 翻译 7.5亿 次 今年 5月 , 在 全球 机器 翻译 领域 影响 最大 、 水平 最 高 的 WMT 2018 评测 中 , 骆卫 华 带领 的 翻译 技术 团队 一举 拿下 5 个 语言 方向 的 冠军 , 成为 比赛 的 最大 赢家 。 与 谷歌 、 微软 、 百度 等 做 不 区分 场景 的 通用 翻译 不同 , 阿里 选择 在 电商 场景 的 翻译 上 发力 。 目前 , 阿里 机器 翻译 已 支持 21 个 语种 的 48 个 语言 方向 的 翻译 , 日均 “ 首先 在 电 商场 景下 , 我们 要 把 机器 翻译 做到 最好 。 ” 骆卫华说 , 但 在 未来 将 不 局限于 电商 翻译 。 回溯 机器 翻译 的 源头 , 不 难 发现 , 这 是 一 场 为了 再造 《 圣经 》 中 “ 通天塔 ” 而 展开 的 “ 军备 竞赛 ” 。 冷战 时期 , 苏联 和 美国 的 科学家 就 曾 在 机器 翻译 上 有 过 几 番 较量 。 当时 , 机器 翻译 领域 的 主角 是 懂得 英俄 双语 的 语言 学家 , 他们 试图 为 计算机 编写 出 一 套 双语 规则 骆卫华说 , 很 长 一 段 时间 , 机器 翻译 都 被 局限 在 编写 规则 的 泥淖 中 , 直到 上世纪 90年代 , 才 被 IBM Watson 研究 中心 提出 的 统计 机器 翻译 所 取代 , 程序员 开始 取代 语言 学家 , 站上 了 机器 翻译 领域 的 主 舞台 。 Cho 等 人 关于 将 人工 智能 底层 模型 “ 神经 网络 ” 应用于 机器 翻译 的 论文 , 又 一 次 吹响 了 翻译 技术 革命 的 号角 。 这 一 年 , 各 大 互联网 公司 开始 大举 投入 , 诸多 优秀 不同于 大多数 在 通用 翻译 领域 厮杀 的 玩家 , 阿里 机器 翻译 团队 以 核心 电 商场 景 为 起点 , 为 整 个 国际化 业务 提供 本地化 解决 方案 。 说到 机器 翻译 , 除了 算法 模型 , 大量 的 样本 数据 是 非常 重要 的 。 这 也 恰恰 是 阿里 的 优势 所在 。 阿里 本身 沉淀 了 大量 电商 领域 相关 的 数据 , 机器 翻译 团队 进一步 梳 理出 10亿 级别 的 双语 平行 语料 、 亿 级 别的 电商 双语 平行 语料 、 千万 级 电商 知识库 , 以及 大 规模 自动 翻译 成 英文 。 ” 英爵伦 跨境 电商 负责人 刘晨 芳说 , “ 最 重要 的 是 , 机器 自动 翻译 的 英文 品牌 名 ‘ Enjeolon ’ , 和 我们 真实 的 英文 名 分毫不差 , 太 神奇 刘晨芳 不知道 的 是 , Lazada 这 套 自动 翻译 系统 也 是 由 阿里巴巴 机器 智能 翻译 团队 开发 出来 的 。 翻译 系统 还 改写 了 标题 , 让 产品 描述 看上去 更加 接地 气 。 译 , 不论 对人 还是 对 机器 , 都 是 极大 的 挑战 。 “ 我们 曾经 找来 专业 人工 译员 翻译 标题 , 结果 译员 翻到 一半 不 干了 , 根本 看 不 懂 。 ” 我们 期望 卖家 不再 需要 为了 做 某 一 个 国家 的 生意 而 专门 聘请 会 那 国 语言 的 专职 人员 。 ” 李兮芝 说 。 除了 用户 体验 的 提高 , 阿里 机器 翻译 还为 旗下 国际 电商 平台 带来 “ 机器 翻译 是 块 非常 难 啃 的 骨头 。 但 如果 我们 真要 实现 全球 买 、 全球 卖 , 就 必须 要花 精力 去做 。 ” 李兮芝 说 。 今年 5月 23日 , WMT 2018 国际 机器 翻译 大赛 , 首 次 参赛 的 阿里巴巴 达摩 院 机器 智能 - NLP 翻译 团队 拿下 5 项 冠军 , 包括 英文 - 中文 翻译 、 英文 - 俄罗斯 阿里巴巴 达摩 院 机器 智能 - NLP 翻译 团队 作为 全球 最 具 权威 、 已 举办 13 次 的 机器 翻译 大赛 , WMT ( Workshop on Machine Translation ) 成为 了 各 大 科技 公司 和 学术 机构 的 竞技场 。 2018年 的 大赛 竞争 格外 激烈 , 吸引 了 霍普金斯 大学 、 爱丁堡 大学 、 微软 、 阿里 、 腾讯 、 小牛 翻译 等 几十 个 机器 翻译 团队 参与 。 “ WMT 大赛 的 文本 主要 是 新闻 题材 , 参赛 团队 要 在 截止 日期 内 上传 机器 翻译 的 成果 。 ” 骆卫华说 。 竞争 很 激烈 , 整个 行业 提升 也 特别 快 , 例如 在 竞争 最 激烈 的 英 “ 中 英 翻译 还好 , 起码 我们 知道 哪里 翻 得 有 问题 。 但 像 土耳其 、 俄罗斯 语 这样 的 小 语种 , 我们 完全 看 不 懂 , 只 能 完全 拼 算法 、 拼 模型 。 ” 骆卫华说 , 在 小 语种 机器 谈到 机器 翻译 和 人工 翻译 的 关系 , 骆卫 华 和 李兮芝 都 赞同 一 个 观点 : 阿里 的 机器 翻译 最终 的 目的 , 不 是 为了 替代 专业 , 而 是 为了 解放 专业 的 人工 翻译 。 随着 机器 翻译 技术 的 不断 突破 , 传统 人工 翻译 正 逐渐 变为 一 个 “ 搬砖 ” 行业 , 充斥 着 大量 重复 低效 的 劳动 。 “ 1995年 , 翻译 一 篇 1000 字 的 中 到 英文 本 , 译 , 但 机器 擅长 。 ” 李兮芝 说 , 人工 翻译 的 长处 在于 “ 创造性 的 智慧 ” , 以及 对 文化 背景 的 深刻 了解 。 “ 翻译 讲究 信达雅 , 机器 目前 最 多 能 做到 ‘ 信 ’ 和 ‘ 达 ’ , 像 下 一 步 , 阿里 机器 翻译 在 迭代 优势 电商 场景 的 同时 , 还 将 向 新 的 领域 拓展 , 同时 完善 产品 矩阵 , 支持 文本 、 语音 和 图像 等 多 模态 翻译 , 并 最终 对外 开放 API 。 “