巨头 扎堆 的 小 市场 : 不学 外语 , 机器 翻译 搞定 一切 ? 原 标题 : 巨头 扎堆 的 小 市场 : 不学 外语 , 机器 翻译 搞定 一切 ? 编者 按 : 本文 系 网易 智能 工作室 ( 公众 号 smar 原 标题 : 巨头 扎堆 的 小 市场 : 不学 外语 , 机器 翻译 搞定 一切 ? 但是 , 翻译机 真的 能 解决 很多 人 英语 不 够用 的 困境 吗 ? 面对 商业 应用 , 针对 需要 大量 专业 术语 的 国际 会议 , 这些 智能 的 机器 翻译 是否 还 会 奏效 ? 另一方面 , 随着 智 机器 翻译 真的 会 完全 取代 人类 , 让 翻译员们 下岗 吗 ? 网易 智能 梳理 了 目前 主流 的 机器 翻译 技术 与 应用 , 一 探 智能 机器 翻译 行业 究竟 。 20 世纪 初期 , 多 位 科学家 与 发明家 陆续 提出 机器 翻译 的 理论 与 实作 计划 或 想法 。 但 真正 的 机器 翻译 研究 要 追溯 到 20世纪 三四十年代 。 1949年 , W. Weaver 发表 《 翻译 备忘录 》 , 第一 次 正式 提出 机器 翻译 的 思想 , 到 传统 的 基于 短语 的 机器 翻译 ( PBMT : Phrase-Based Machine Translation ) , 再 到 当今 基于 递归 神经 网络 ( RNN : recurrent neural network ) 技术 的 神经 网络 翻译 ( NMT : Neural Machine Translation ) 的 各 种 翻译机 和 翻译 软件 的 出现 。 随着 人工 智能 的 发展 , 一 改 传统 机器 翻译 的 格局 , 随着 LSTM 、 RNN 等 技术 的 加入 , 新 时期 机器 翻译 在 翻译 质量 上 最 大 的 变革 就是 从 PBMT 到 NMT 的 转变 , 而 其中 , 谷歌 神经 机器 翻译 ( GNMT : Google Neural Machine Translation ) 系统 实现 了 到 目前 为止 机器 翻译 质量 的 最大 提升 。 不得不 提 , 在 机器 翻译 进化史 中 , 最 具 里程碑式 的 突破 之一 就 是 谷歌 翻译 在 2016年 推出 的 神经 网络 翻译 ( GNMT ) , 相比 于 谷歌 之前 基于 短语 的 机器 翻译 ( PBMT : Phrase-Based Machine Translation ) , GNMT 所 需要 设计 的 工程量 更少 , 同时 翻译 效果 更 好 , 可见 GNMT 的 技术 将 把 机器 翻译 带到 一 个 全新 的 纪元 。 而 所谓 的 先进 之 处 , 在于 翻译 逻辑 模仿 了 人脑 的 表达 模式 , 通俗 地 讲 , 实现 了 把 一 句 话 中 所有 词汇 的 语意 融合 在一起 进 行 综合 理解 与 分析 。 而 传统 的 机器 翻译 是 逐个 识别 和 理解 词汇 , 从而 无法 达到 理解 不同 词汇 融合 后 产生 的 含义 。 近 几 年 来 , “ 神经 网络 机器 翻译 技术 ” 成为 人工 智能 翻译 主流 。 该 技术 通过 “ 端到端 ” 的 方法 将 翻译 平行 语料 进行 映射 , 以 “ 编码器 — 注意力 机制 — 解码器 ” 的 结 由此可见 , 神经 网络 相较于 传统 机器 翻译 技术 是 一 种 革命性 的 改变 。 如果说 基于 短语 的 统计 机器 翻译 ( PBMT ) 是 一 种 拼图 过程 , 通过 对 短语 对 的 排列 和 组合 , 尝试 找出 较 好 的 翻译 选项 , 但 整 个 决策 过程 是 离散 的 、 其中 涉及 的 决策 信息 也 都 是 局部 的 。 那么 , 神经 网络 机器 学习 则 反 其 道 而行 , 更 具有 整体性 , 使 整个 决策 过 机器 翻译 的 繁荣 景象 与 各 家 产品 对比 在 机器 替代 人类 劳动力 的 征途 里 , 翻译 界 无疑 首当其冲 。 机器 翻译 技术 很 早 就 存在 , 但 真正 的 实现 大规模 产品化 , 是 出现 在 谷歌 发布 翻译 产品 之后 的 半 年 中 , 谷歌 、 微软 、 有道 、 科大 讯飞 、 百度 、 搜狗 等 均 上线 或 更新 了 翻译 产品 , 各 大 厂商 都 想在 这个 备受 关注 的 机器 翻译 领域 里 分得 一 杯 羹 。 你 可能 会 觉得 奇怪 , 为何 大型 技术 公司 都 热衷于 扎堆 做 机器 翻译 ? 事实上 , 无论 对于 上述 哪 家 公司 , 翻译 相较于 其他 技术 , 都 不 是 块 有 极 大 商业 空间 和 发展 的 业务 。 但 在 现有 的 AI 技术 中 , 机器 翻译 的 成熟度 是 相对 较 高 的 。 所以 即便是 出于 炫技 的 目的 , 翻译 也 必然 会 成为 兵家 必争之地 。 但 说到底 , 对 公司 而言 , 真正 能 衍生 虽然 GNMT 在 机器 翻译 领域 里 已经 可以 算是 最 先进 的 技术 , 但是 其 存在 的 缺陷 还 远未 得到 完全 解决 , 尽管 现在 GNMT 另外 , 鉴于 机器 没有 和 人类 一样 的 思维 逻辑 和 推理 能力 , GNMT 对于 GNMT 是否 已经 到达 了 机器 翻译 的 极限 , Google Brain 的 软件 工程师 陈智峰 曾 表示 , 现有 的 深度 学习 RNN 目前 的 技术 还 远未 到 极限 , 更加 不 会 是 机器 翻译 的 极限 。 后语 境 进行 关联性 理解 , 而且 是 基于 一定 的 知识 储备 的 基础 上 。 但 机器 无法 学习 知识 , 也 没有 理解 能力 , 从而 陷入 了 “ 鸡 和 蛋 ” 的 问题 之中 。 百度 翻译 最 大 的 特色 是 除 翻译 结果 外 , 还 提供 示例 用法 与 原文 配对 。 示例 用法 提供 的 例句 能够 帮助 用户 查看 更 多 类似 翻译 结果 或 单词 的 用法 , 当 机器 翻译 结果 不准 面对 智能 翻译 领域 同 质化 严重 的 现象 , 科大 讯飞 轮值 总裁 、 研究院 院长 胡郁 表示 , 对于 机器 翻译 , 大家 的 思路 还有 采用 的 技术 点 都 是 类似的 , 比如 现在 用 Atte 搜狗 在 2016年 捐赠 清华 大学 打造 人工 智能 计算 研究院 , 机器 翻译 也 是 天工 智能 研究院 下面 的 第一 个 合作 项目 , 双方 将 联合 推进 多 场景 即时 对话 翻译 。 谈及 机器 机器 翻译 的 大规模 落地 应用 还有 多 远 ? 不过 , 机器 翻译 这个 领域 依然 是 个 赢者 通吃 的 小 市场 。 机器 翻译 的 出现 的 本质 是 为了 快速 方便 的 实现 不同 语言 之间 低 成本 的 有效 交流 。 目前 , 机器 翻译 的 应用 主要 集中 在 以下 几 个 方面 : 新闻 编译 , 例如 网易 见外 翻译 机器 平台 等 用于 外文 网站 新闻 的 翻译 等 。 由此可见 , 目前 , 机器 翻译 还是 停留 在 可实现 简单 沟通 交流 的 层面 , 而 对于 那些 要求 较 高 的 例如 书籍 翻译 、 专业性 强 的 高级 会议 口译 等 翻译 质量 要求 高的 地方 , 机 , 这 是 自然 语言 处理 所 最 大 的 挑战 。 人类 语言 和 机器 语言 不 一样 , 机器 语言 要求 精准 、 没有 歧义 , 比如 C + , JAVA 。 但是 自然 语言 , 尤其是 口语 交互 的 歧义 机器 翻译 掘 金路 : 人机 结合 的 商业 模式 才 是 王道 尽管 NMT 的 出现 被 视为 机器 翻译 时代 的 重大 转折点 , 让 机器 翻译 的 质量 出现 了 质的 提升 。 但 NMT 取代 人工 翻译 还 为时尚早 。 NMT 翻译 仍然 时不时 地 会 犯 一些 很 傻的 错误 。 实际 场合 的 翻译 , 尤其是 书面 翻译 和 大型 重要 场合 如 文学 、 商务 、 法律 等 特定 专业化 场景 下 的 翻译 , 对 这样 的 错误 容忍度 很 低 。 同时 , 机器 翻译 对于 从 另一方面 看 , 我们 不得不 承认 , 机器 翻译 的 出现 消减 和 降低 人工 翻译 所 耗费 的 成本 巨大 , 实现 不同 语言 之间 低 成本 的 有效 交流 。 技术 提升 引发 的 成本 下降 , 往往 是 掘开 商业化 缺口 的 契机 。 神经 网络 翻译 将 机器 翻译 的 准确度 提升 后 , 人机 结合 的 商业 模式 具备 了 可行性 。 即由 机器 先 做 翻译 , 人 根据 周枫 的 估算 , 除却 艺术 属性 的 文学 领域 和 对 准确性 要求 非常 高 的 商业 合同 等 领域 , 三 年 左右 时间 , 机器 翻译 会 替代 包括 日常 通信 、 新闻 、 技术 文档 、 学术 文 机器 翻译 的 准确度 确实 在 逐步 提升 , 逐渐 接近 人工 翻译 , 但是 始终 是 可模仿 , 不 可 超越 。 所以 , 机器 翻译 和 所有 的 人工 智能 技术 一样 , 它们 不 能 取代 人 , 只会 成为