机器 翻译 都 比 人 强 了 , 为什么 我 还在 复制 粘贴 查 单词 ? 机器 翻译 都 比 人 强 了 , 为什么 我 还在 复制 粘贴 查 单词 ? Bengio 等 人 发布 了 一 篇 在 机器 翻译 领域 应用 神经 网络 的 论文 —— Neural Machine Translation by Jointly 神经 网络 的 出现 , 让 优质 高效 的 机器 翻译 不再 遥遥无期 。 机器 翻译 能力 是 如何 赶超 人类 的 ? 神经 网络 迅速 成为 了 近代 机器 翻译 领域 最 有 活力 的 “ 鲶鱼 ” 。 短短 两 年 , 基于 神经 网络 的 机器 翻译 便 已 取代 统计 学派 成为 翻译 领域 的 主流 研究 方法 。 谷歌 、 微软 等 公司 也 纷纷 宣布 将 这个 新 的 技术 应用 到 其 翻译 等 产品 之中 。 两 年 来 , 神经 网络 翻译 能力 超过 了 翻译 界 过去 几十 年 的 成绩 。 神经 网络 翻译 出现 后 , 机器 翻译 的 单词 错误率 降低 了 50% , 词汇 错误 和 语法 错误率 也 都 分别 降低 了 1 而 除 神经 网络 的 应用 之外 , 机器 翻译 错误率 的 大幅度 降低 , 还 基于 另 一 个 条件 —— 大 规模 精准 平行 语料 数据集 的 积累 。 决定 机器 翻译 质量 的 因素 中 数据 占据 绝对 的 主导 地位 。 数据 量 的 大小 和 精准 程度 决定 了 机器 翻译 引擎 的 效果 。 十 年 前 , 谷歌 在 机器 翻译 领域 下 过 一 个 论断 : 数据集 规模 每 翻 一 倍 , 它 自动 评价 的 指标 就 能够 提升 0.5 个 百分点 。 这 一 说法 让 有 大 规模 、 准确 数据 积累 的 组织 、 企业 有 了 抢占 机器 翻译 市场 制高点 的 机会 。 但是 , 垂直 级 的 机器 翻译 并非 一蹴而就 , 哪怕 是 互联网 巨头们 , 也 未 轻易 地 将 触手 伸入 垂直 级 的 机器 翻译 领域 。 为了 填补 了 这 一 领域 的 空白 , 中译语通 率先 推出 MerCube , 是 全球 第一 个 企业级 机器 翻译 硬件 。 在 具体 场景 下 , 想要 实现 产品 级 应用 的 机器 翻译 系统 , 需要 上千万 级别 的 句对 。 另 一 个 方面 是 目前 数据集 的 不均衡 问题 。 在 语种 上 , 英文 为 主导 的 数据集 占 比较 多 机器 翻译 技术 对 大量 数据 的 需求 和 实际 市场 上 流通 的 存量 数据 的 差距 很 大 , 这 就 给 了 在 翻译 界 有 深厚 历史 积累 的 公司 发力 的 机会 。 , 有望 与 谷歌 、 微软 等 互联网 巨头 , 在 机器 翻译 服务 领域 分 一 杯 羹 。 机器 翻译 服务 之痛 机器 翻译 由于 技术 的 进步 在 处理 能力 上 正 迅速 赶超 人类 , 企业 用户 对 机器 翻译 的 认可 度 越来越 高 , 但 在 服务 形式 上 多 年 来 却 几乎 一成不变 。 目前 , to 这样 的 调研 结果 让 中译语通 看到 了 to b 端 翻译 市场 服务 升级 的 巨大 潜力 。 今年 五月份 , 中译语通 开始 尝试 机器 翻译 上 to 图 : 7 月份 的 品牌 战略 发布 会上 , 中译语通 发布 了 MerCube 企业级 机器 翻译 服务器 。 MerCube 产品 性能 表 显示 , MT “ ( 开发 这 款 产品 的 ) 契机 更多 还是 市场 的 驱动 , 很多 客户 其实 是 主动 来 找 我们 , 觉得 这个 机器 翻译 不错 , 想买 这个 ( 产品 ) , 想 本地化 部署 。 ” V100 , 通过 这 种 方式 , 一次性 解决 了 用户 的 软件 和 硬件 需求 。 区别于 原来 在 标准 的 服务器 上 安装 软件 的 方式 , 中译语通 提供 一体机 的 解决 方案 , 将 机器 翻译 引 以 中译语通 为例 , 2014年 其 开始 自主 研发 机器 翻译 引擎 , 同年 6月 发布 中英 统计 机器 翻译 引擎 , 是 继 谷歌 、 微软 、 百 度 之后 , 国内 最早 进行 机器 翻译 引擎 研发 月 , 中译语通 发布 了 包含 37 个 语种 的 机器 翻译 引擎 , 成为 国内 翻译 领域 支持 语种 数量 最 多 的 企业 。 在 机器 翻译 领域 , 每 种 新 的 语种 扩展 都 需要 千万 句 对 , 要 达到 工业级 的 应用 , 在 数据集 数量 上 要求 更 高 。 这 也 是 目前 很多 企业 放弃 了 这个 方向 的 原因 。 和 数据 的 垂直 服务者 在 机器 翻译 领域 大有可为 。