#alternate * 搜狐 首页 * 新闻 * 体育 * 汽车 * 房产 * 旅游 * 教育 * 时尚 * 科技 * 财经 * 娱乐 * 更多 母婴 健康 历史 军事 美食 文化 星座 专题 游戏 搞笑 动漫 宠物 搜狐 > 科技 > > 正文 新 零售 智库 文章 总 阅读 查看 TA 的 文章 > 揭秘 阿里 机器 翻译 团队 : 拿下 5 项 全球 冠军 , 每 天 帮 商家 翻译 7.5亿 次 2018-08-13 18:25 来源 : 新 零售 智库 电商 / 阿里巴巴 原 标题 : 揭秘 阿里 机器 翻译 团队 : 拿下 5 项 全球 冠军 , 每 天 帮 商家 翻译 7.5亿 次 [ 44a22aa1a42a4528a7254 fec3339f759.jpeg ] 他们 要 让 商业 没有 语言 障碍 , 打赢 再造 “ 通天塔 ” 的 “ 军备 竞赛 ” 。 文 | 刘 卓然 跨境 电 商 市场 越来越 大 , 商家们 也 遇到 了 新 问题 。 以 阿里巴巴 国际 站 为例 , 七 成 买家 以 英语 沟通 , 剩下 三 成 的 小 语种 , 却 难住 了 平台 上 近 96% 的 卖家 。 “ 翻译 和 本地化 都 做 不 好 , 说明 你 对 海外 市场 根本 不 重视 , 还 想 怎么 品牌 出海 ? ” 一 米 八 大 高个 的 李兮芝 , 语速 极快 , 说话 从不 绕弯 。 李兮芝 是 阿里巴巴 国际 贸易 事业部 ( ICBU ) 阿里 语言 服务 总 经理 , 对 商家 的 痛点 了如指掌 。 讲到 最 棘手 的 案例 , 他 会 立刻 站 起来 , 抄起 一 支 笔 , 在 会议室 的 白 板 上 演示 一 番 。 [ 8620d3ea32844497945cd3d5ac54d671.jpeg ] 阿里巴巴 国际 站 用户 沟通 语言 现状 坐在 李兮芝 一旁 的 骆卫华 , 语速 要 慢 许多 。 2014年 1月 , 中科院 计算所 出身 的 骆卫华 , 加入 了 阿里 , 如今 是 阿里巴巴 达摩院 翻译 平台 负责人 。 今年 5月 , 在 全球 机器 翻译 领域 影响 最大 、 水平 最 高 的 WMT 2018 评测 中 , 骆卫 华 带领 的 翻译 技术 团队 一举 拿下 5 个 语言 方向 的 冠军 , 成为 比赛 的 最大 赢家 。 与 谷歌 、 微软 、 百度 等 做 不 区分 场景 的 通用 翻译 不同 , 阿里 选择 在 电商 场景 的 翻译 上 发力 。 目前 , 阿里 机器 翻译 已 支持 21 个 语种 的 48 个 语言 方向 的 翻译 , 日均 使用量 已 达到 7.5亿 次 。 除了 支持 离线 及 文字 翻译 , 还 支持 实时 语音 、 图片 以及 视频 翻译 , 应用于 阿里巴巴 国际 站 、 速 卖 通 、 LAZADA 、 菜鸟 、 阿里云 、 钉 钉 、 飞猪 等 40多 个 业务 部门 。 “ 首先 在 电 商场 景下 , 我们 要 把 机器 翻译 做到 最好 。 ” 骆卫华说 , 但 在 未来 将 不 局限于 电商 翻译 。 没有 硝烟 的 “ 军备 竞赛 ” 《 圣经 》 旧约 中 , 人类 曾 联合 起来 搭建 通往 天堂 的 高塔 , 上帝 为了 阻止 这 一 计划 , 让 人类 说上 不同 的 语言 。 没 过 多久 , 无法 沟通 的 人类 便 四 散 而去 。 [ b503 db9bf4be47fa9dfcea3f080e8dc8.jpeg ] 回溯 机器 翻译 的 源头 , 不 难 发现 , 这 是 一 场 为了 再造 《 圣经 》 中 “ 通天塔 ” 而 展开 的 “ 军备 竞赛 ” 。 冷战 时期 , 苏联 和 美国 的 科学家 就 曾 在 机器 翻译 上 有 过 几 番 较量 。 当时 , 机器 翻译 领域 的 主角 是 懂得 英俄 双语 的 语言 学家 , 他们 试图 为 计算机 编写 出 一 套 双语 规则 。 “ 但 问题 是 , 规则 和 规则 之间 存在 大量 冲突 , 在 实际 应用 中会 出现 大量 异常 情况 。 ” 骆卫华说 , 很 长 一 段 时间 , 机器 翻译 都 被 局限 在 编写 规则 的 泥淖 中 , 直到 上世纪 90年代 , 才 被 IBM Watson 研究 中心 提出 的 统计 机器 翻译 所 取代 , 程序员 开始 取代 语言 学家 , 站上 了 机器 翻译 领域 的 主 舞台 。 2014年 , 蒙特利尔 大学 计算机系 博士后 Kyunghyun Cho 等 人 关于 将 人工 智能 底层 模型 “ 神经 网络 ” 应用于 机器 翻译 的 论文 , 又 一 次 吹响 了 翻译 技术 革命 的 号角 。 这 一 年 , 各 大 互联网 公司 开始 大举 投入 , 诸多 优秀 的 学者 和 学生 陆续 加入 谷歌 、 亚马逊 、 脸谱 和 BAT 。 在 中科院 学习 和 工作 近 12 年 的 骆卫华 , 在 “ 纠结 一 段 时间 后 ” , 也 决定 跳出 学术圈 , 选择 加入 阿里 , 去 实现 将 技术 真正 落地 的 梦想 。 “ 以前 在 实验室 的 主要 任务 是 发 paper ( 论文 ) , 做 课题 , 只有 这个 领域 的 人才 会 关心 , 但 现在 每 天 有 几千万 人 在 实际 使用 你 的 产品 , 这 种 感觉 是 完全 不 一样 的 。 ” [ 90b30 ecd4d4d4ce49a816b9308f1eadb.jpeg ] 2014年 , 骆卫 华 加入 阿里 不同于 大多数 在 通用 翻译 领域 厮杀 的 玩家 , 阿里 机器 翻译 团队 以 核心 电 商场 景 为 起点 , 为 整 个 国际化 业务 提供 本地化 解决 方案 。 “ 项目 很多 , 得 排 期 。 比如 , 2 、 3月 做 钉钉 的 项目 , 4 、 5月 要 做 速 卖 通 项目 。 ” 骆卫华说 , 除此之外 , 团队 还会 时不时 会 接到 十万 火急 的 需求 。 比如 , 去年 双 11 之后 , 团队 曾 用 两 个 星期 , 与 菜鸟 团队 一起 加班加点 编写 了 一 套 报关 自动 翻译 产品 , “ 后来 菜鸟 评估 说 , 整个 报关 成本 下降 了 90% 。 ” 难 的 不止 是 翻译 说到 机器 翻译 , 除了 算法 模型 , 大量 的 样本 数据 是 非常 重要 的 。 这 也 恰恰 是 阿里 的 优势 所在 。 “ 举 个 例子 , ‘ Photo Print ’ 这个 词 在 通用 语境 下 会 被 翻成 ‘ 照片 打印 ’ , 但 你 知道 它 在 纺织 面料 行业 里 是 什么 意思 吗 ? ” 李兮芝 接着 说 , “ 这 是 ‘ 热转印 印花 ’ 工艺 的 一 种 , 翻 成 照片 打印 就 贻笑大方 了 。 ” 阿里 本身 沉淀 了 大量 电商 领域 相关 的 数据 , 机器 翻译 团队 进一步 梳 理出 10亿 级别 的 双语 平行 语料 、 亿 级 别的 电商 双语 平行 语料 、 千万 级 电商 知识库 , 以及 大 规模 行业 多 语言 术语 库 。 然而 , 语言 上 的 准确 翻译 只是 第一 道 难关 , 更 困难 的 是 通过 算法 实现 文化 、 法律 、 经济 、 宗教 等 层面 的 本地化 落地 。 一 个 案例 让 李兮芝 印象 深刻 。 “ 同样 是 10万 , 英 美 国家 千位 分隔符 用 逗号 , 标 成 ‘ 100,000 ’ ; 但 法国 、 西班牙 的 千 位 分隔符 是 句号 , 逗号 用来 标 小数点 , 10万 在 法国 得标 成 ‘ 100.000 ’ , 如果 标成 ‘ 100,000 ’ 就 表示 是 100 了 。 ” 这 类 大额 数字 在 阿里巴巴 国际 站 经常 出现 , 曾经 出现 过 中国 卖家 因为 没有 将 数字 本地化 , 而 被 买家 投诉 的 情况 。 阿里巴巴 ICBU 语言 服务 总经理 李兮芝 今年 4月 , 主打 男装 的 国内 服饰 品牌 英爵伦 , 加入 了 阿里 旗下 的 东南亚 电商 平台 Lazada 上 的 “ 淘宝 精选 ” ( Taobao Collection ) 计划 。 Lazada 通过 自动 抓取 天 猫 店 的 产品 , 帮助 品牌 拓展 东南亚 市场 。 “ 我们 天 猫 店 商品 标题 是 全 中文 的 , 没 想到 Lazada 能 自动 翻译 成 英文 。 ” 英爵伦 跨境 电商 负责人 刘晨 芳说 , “ 最 重要 的 是 , 机器 自动 翻译 的 英文 品牌 名 ‘ Enjeolon ’ , 和 我们 真实 的 英文 名 分毫不差 , 太 神奇 了 。 ” [ 53950 de86e814a9ab2de4dfbcc1b7b7e.jpeg ] 英爵伦 发现 , 品牌 名 英文 名 翻 得 分毫不差 刘晨芳 不知道 的 是 , Lazada 这 套 自动 翻译 系统 也 是 由 阿里巴巴 机器 智能 翻译 团队 开发 出来 的 。 翻译 系统 还 改写 了 标题 , 让 产品 描述 看上去 更加 接地 气 。 “ 淘系 商品 标题 没有 固定 格式 , 由 N 个 热搜 词 组成 , 但 不 是 一 个 完整 的 句子 。 要是 直接 翻译 , 海外 消费者 压根 看 不 懂 。 ” 李兮芝 说 , 这 种 没有 上下文 信息 的 标题 翻 译 , 不论 对人 还是 对 机器 , 都 是 极大 的 挑战 。 “ 我们 曾经 找来 专业 人工 译员 翻译 标题 , 结果 译员 翻到 一半 不 干了 , 根本 看 不 懂 。 ” 后来 , 团队 通过 融合 多 种 自然 语言 处理 和 文本 生成 技术 , 攻下 了 商品 标题 改写 的 难题 。 像 英 爵伦 这样 的 中国 品牌 , 不用 担心 Lazada 上 的 东南亚 买家 会 因为 看 不 懂 标题 , 而 放弃 购买 商品 。 今年 5月 , 阿里巴巴 正式 上线 对话 实时 翻译 功能 , 这 也 是 全球 电商 领域 的 首 个 实时 翻译 AI 产品 。 “ 无 障碍 的 跨语言 沟通 明显 增加 了 阿里巴巴 国际 站的 用户 粘性 。 我们 期望 卖家 不再 需要 为了 做 某 一 个 国家 的 生意 而 专门 聘请 会 那 国 语言 的 专职 人员 。 ” 李兮芝 说 。 除了 用户 体验 的 提高 , 阿里 机器 翻译 还为 旗下 国际 电商 平台 带来 了 明显 的 流量 、 转化率 和 购买率 增长 。 [ 29b82262 fd 3145c6b0468926626a13 da.jpeg ] 阿里巴巴 实时 翻译 系统 “ 机器 翻译 是 块 非常 难 啃 的 骨头 。 但 如果 我们 真要 实现 全球 买 、 全球 卖 , 就 必须 要花 精力 去做 。 ” 李兮芝 说 。 解放 , 而 非 替代 人工 翻译 今年 5月 23日 , WMT 2018 国际 机器 翻译 大赛 , 首 次 参赛 的 阿里巴巴 达摩 院 机器 智能 - NLP 翻译 团队 拿下 5 项 冠军 , 包括 英文 - 中文 翻译 、 英文 - 俄罗斯 语互译 和 英文 - 土耳其语 互译 项目 。 [ c96969158 aca4a068b04f802e32b0127.jpeg ] 阿里巴巴 达摩 院 机器 智能 - NLP 翻译 团队 作为 全球 最 具 权威 、 已 举办 13 次 的 机器 翻译 大赛 , WMT ( Workshop on Machine Translation ) 成为 了 各 大 科技 公司 和 学术 机构 的 竞技场 。 2018年 的 大赛 竞争 格外 激烈 , 吸引 了 霍普金斯 大学 、 爱丁堡 大学 、 微软 、 阿里 、 腾讯 、 小牛 翻译 等 几十 个 机器 翻译 团队 参与 。 “ WMT 大赛 的 文本 主要 是 新闻 题材 , 参赛 团队 要 在 截止 日期 内 上传 机器 翻译 的 成果 。 ” 骆卫华说 。 竞争 很 激烈 , 整个 行业 提升 也 特别 快 , 例如 在 竞争 最 激烈 的 英 中 翻译 任务 , 去年 最好 的 成绩 在 今年 可能 已经 排 不到 前 几 名 了 。 “ 中 英 翻译 还好 , 起码 我们 知道 哪里 翻 得 有 问题 。 但 像 土耳其 、 俄罗斯 语 这样 的 小 语种 , 我们 完全 看 不 懂 , 只 能 完全 拼 算法 、 拼 模型 。 ” 骆卫华说 , 在 小 语种 机器 翻译 领域 , 以前 一直 是 由 国外 的 公司 与 科研 机构 一直 保持 领先 地位 。 “ 小 语种 的 双语 语料 是 很 稀缺 的 , 但 阿里 全球化 的 目标 要求 我们 必须 从 技术 层面 做 突破 , 用更 少的 数据 , 在 专业 领域 上翻 得 更 准确 。 ” 谈到 机器 翻译 和 人工 翻译 的 关系 , 骆卫 华 和 李兮芝 都 赞同 一 个 观点 : 阿里 的 机器 翻译 最终 的 目的 , 不 是 为了 替代 专业 , 而 是 为了 解放 专业 的 人工 翻译 。 随着 机器 翻译 技术 的 不断 突破 , 传统 人工 翻译 正 逐渐 变为 一 个 “ 搬砖 ” 行业 , 充斥 着 大量 重复 低效 的 劳动 。 “ 1995年 , 翻译 一 篇 1000 字 的 中 到 英文 本 , 译 员的 收入 可达 600 元 人民币 。 ” 李兮芝 说 , 但 在 今天 , 同样 字数 的 文本 , 甚至 低 到 只有 50 元 的 收入 。 低廉 的 人工 翻译 报酬 , 正在 把 专业 译员 推向 价格 更 高 的 专业 技术 翻译 领域 。 然而 , 这些 领域 的 文本 , 由 大量 专业 术语 和 范式 行文 构成 。 “ 人类 不 擅长 记忆 专业 词汇 , 但 机器 擅长 。 ” 李兮芝 说 , 人工 翻译 的 长处 在于 “ 创造性 的 智慧 ” , 以及 对 文化 背景 的 深刻 了解 。 “ 翻译 讲究 信达雅 , 机器 目前 最 多 能 做到 ‘ 信 ’ 和 ‘ 达 ’ , 像 文学 翻译 、 口语 俚语 、 本地化 的 惯用 表达 等等 , 还是 需要 人工 翻译 。 ” 骆卫华说 。 今年 1月 , 阿里巴巴 国际 站 向 平台 所有 供应商 , 免费 开放 了 一 款 AI 实时 翻译 系统 。 商家 输入 的 语音 或 文字 , 能 自动 转变 为 翻译 好 的 目标 文本 。 为了 增强 翻译 的 准 确性 , 加入 人工 修正 的 干预 功能 。 比如 , 商家 如果 有 更 地道 的 表达 方式 , 可以 进行 翻译 订正 , 以 弥补 神经 网络 翻译 系统 现 阶段 存在 的 问题 。 下 一 步 , 阿里 机器 翻译 在 迭代 优势 电商 场景 的 同时 , 还 将 向 新 的 领域 拓展 , 同时 完善 产品 矩阵 , 支持 文本 、 语音 和 图像 等 多 模态 翻译 , 并 最终 对外 开放 API 。 “ 我们 希望 把 阿里巴巴 全球化 过程 中 的 经验 沉淀 下来 , 最后 打包 输出 , 赋 能 给 整个 社会 。 让 商业 没有 语言 障碍 , 让 天下 没有 难 做 的 生意 。 ” 李兮芝 说 。 返回 搜狐 , 查 看 更多 责任 编辑 : 声明 : 该 文 观点 仅 代表 作者 本人 , 搜狐 号 系 信息 发布 平台 , 搜狐 仅 提供 信息 存储 空间 服务 。 阅读 ( ) 投诉 推荐 阅读 * 推荐 * 创业 武林 大会 * 移动 互联网 * 工业 技术 * 国家 电网 * 阿里 星球 * Surface * 陈竺 * 运动 手环 * 智能 手表 * Apple Watch * 测评 * AR 免费 获取 今日 搜狐 热点 6 秒 后 进入 搜狐 首页 今日 推荐 进入 搜狐 首页 意见 反馈