华为 陈圣权 : 数据 是 机器 翻译 发展 的 重要 因素 而 借助 实现 高效率 、 高 质量 的 机器 翻译 , 我们 却 有 可能 打破 语言 障碍 , 实现 跨越 语言 的 无障碍 交流 。 近日 , ChinaIT.com 独家 专访 了 中国 翻译 协会 副会长 、 华为 翻译 中心 前 主任 陈圣权 , 他 对于 机器 翻译 行业 的 发展 、 应用 前景 等 方面 提出 了 许多 独到 的 见 人工 智能 技术 推动 机器 翻译 快速 发展 作为 计算 语言学 的 一 个 分支 , 机器 翻译 的 发展 依赖于 人工 智能 技术 的 演进 , 特别是 神经 网络 等 技术 的 出现 , 让 机器 翻译 技术 得到 了 突飞猛进 的 提升 。 陈圣权 认为 , 机器 翻译 的 进步 首先 体现 在 效率 方面 , 依托 于 强大 的 运算 能力 , 机器 翻译 速度 远 超过 人工 翻译 , 可以 做到 “ 立等 可取 ” ; 其次 , 机器 翻译 越来越 没有 “ 翻译 腔 ” 了 , 满足 了 基本 的 可读性 和 可用性 的 需求 , 让 人类 可以 摆脱 简单 、 机械 的 翻译 工作 , 投入 到 真正 有 创造性 的 翻译 工作 上 。 “ 跨国 公司 的 内部 交流 、 专业 说明书 翻译 、 代码 注释 等 场景 是 机器 翻译 在 企业 内部 常见 的 几个 应用 场景 , 其 不仅 在 速度 上 远远 超过 了 人工 翻译 , 而且 准确率 也 达到 以 华为 为例 , 机器 翻译 目前 已经 帮助 华为 大大 加快 了 翻译 的 交付 速度 , 节约 了 30% 的 人力 资源 成本 , 还 挖掘 了 不少 翻译 需求 。 目前 , 注册 华为 机器 翻译 系统 的 用户 达到 9万多 人 , 每天 翻译 的 交付 量 达到 5000万 - 1亿 字符数 。 ” 陈圣权 表示 。 “ 作为 人工 智能 的 典型 应用 场景 之一 , 机器 翻译 现在 已经 相对 较为 成熟 , 在 特定 场景 下 , 机器 翻译 甚至 能够 比 人工 翻译 的 效果 更 好 , ” 陈圣权 表示 , “ 随着 人工智 能 技术 的 进步 , 机器 翻译 将 会 应用 在 更多 场景 中 ” 。 数据 成为 机器 翻译 的 核心 要素 之一 机器 翻译 技术 与 应用 近年 之所以 得到 了 突飞猛进 的 进展 , 与 人工 智能 的 广泛 应用 是 分 不 开 的 , 正 是 因为 人工 智能 技术 的 发展 , 使得 机器 可以 摆脱 传统 的 翻译 模式 , “ 与 人工 智能 发展 的 要素 相似 , 目前 机器 翻译 发展 的 要素 也 可以 归结 为 以下 几 点 : 强大 的 计算 能力 、 先进 的 算法 模型 、 以及 丰富 的 数据 。 ” 其中 , 陈圣权 特别 提到 了 数据 的 重要性 , 他 认为 , 在 现 阶段 的 机器 翻译 应用 实践 中 , 计算 能力 并不 是 显著 的 瓶颈 , 而且 开源 社区 也 提供 了 大量 先进 、 且 仍 在 不断 进 化的 机器 翻译 算法 模型 , 这 让 机器 翻译 的 技术 门槛 大幅 降低 。 相比较 之下 , 数据 的 重要性 更加 凸显 , 数据量 的 大小 和 精准 程度 往往 决定 了 机器 翻译 引擎 的 效果 , 谷歌 在 机器 翻译 领域 下 过 一 个 论断 : 数据集 规模 每 翻 一 倍 , 它 自 特别是 在 行业 化 场景 的 机器 翻译 需求 中 , 数据 的 掣肘 就 显得 明显 。 面向 公众 的 机器 翻译 系统 尚 可以 依赖 互联网 上 的 公开 数据 , 满足 部分 日常 场景 的 翻译 需求 , 但是 “ 由于 数据 保护 、 个人 隐私 、 合规性 等 方面 的 考虑 , 很少 有 企业 会 向 机器 翻译 应用 开放 自己 的 数据 , 这 一 问题 在 很长 时间 内 都 将 难以 得到 解决 , 如果 得不 到 这些 数 据 的 支撑 , 机器 翻译 的 质量 将 会 受到 很大 影响 。 华为 的 机器 翻译 实践 也 表明 , 在 内部 文档 翻译 方面 , 自 有 平台 在 翻译 质量 方面 显著 超过 谷歌 等 机器 翻译 平台 ” , 陈圣权 表示 , “ 因此 , 在 行业 应用 方面 , 由 通用 型 的 机器 翻译 平台 + 企业 自 有 训练 数据 + 定制 化 能力 组成 的 机器 翻译 解决 方案 , 将 会 成为 现 阶段 企业 拥抱 机器 翻译 的 优先 选择 。 ” 机器 翻译 的 未来 可 期 虽然 机器 翻译 的 应用 目前 仍 局限于 特定 场景 中 , 但是 机器 翻译 的 发展 速度 让 我们 对于 未来 抱有 非常 乐观 的 态度 。 特别是 在 神经 网络 取代 统计 学派 成为 翻译 领域 的 主流 研究 方法 之后 , 机器 翻译 的 单词 错误率 、 词汇 错误 和 语法 错误率 都 大幅 降低 , 超过 了 过去 几十 年 所 取得 的 成绩 可以 预见 , 随着 神经 网络 等 技术 的 继续 提升 , 机器 翻译 的 准确率 还 将 进一步 提升 。 就 像 陈圣权 所 说 , “ 除了 文学 、 艺术 等 比较 优美 , 需要 发挥 人类 创造力 、 融合 人类 情感 的 翻译 需求 之外 , 机器 翻译 将 进一步 替代 人类 翻译 , 满足 不同 语言 的 沟通 需