( BUTTON ) ____________________ 我的 搜索 历史 清空 历史 热搜词 * 电影 * 腾讯 * 创业 * 程序员 * 微信 * 张勇 * 开放 平台 * 云南 * 腾讯 视频 虎 嗅 网 * + 电商 消费 + 娱乐 淘金 + 雪花 一代 + 人工 智能 + 车 与 出行 + 智能 终端 + 医疗 健康 + 金融 地产 + 企业 服务 + 创业 维艰 + 社交 通讯 + 全球 热点 + 生活 腔调 资讯 * 热议 * 24 小时 * 活动 * 创新 快车道 * + 黑 卡 + 深 案例 + 前沿 技术 情报所 + 大咖 私房话 + 私房话 实录 + 财富 收割机 + 人口 保卫战 + 财报 透露 的 真相 + 从 破局 到 增长 指南 + 区块链 案例 全 解析 + 铁三角 饱和 攻击 + 跑 赢 印钞机 虎 嗅 精选 * 官方 Blog * [ png ] 微信 扫 一 扫 下载 虎嗅 APP APP 下载 * 搜索 * 登录 * 注册 * 投稿 * * [ ] 感谢 赞赏 ! 给 好友 秀 一下 吧 内容 棒 , 扫 码 分享 给 好友 * [ ] * * 评论 * 收藏 * 点 赞 点 赞 机器 翻译 都 比 人 强 了 , 为什么 我 还在 复制 粘贴 查 单词 ? 钱德虎 特别 策划 2018-08-20 15:55 收藏 36 评论 1 机器 翻译 都 比 人 强 了 , 为什么 我 还在 复制 粘贴 查 单词 ? “ 这 是 全宇宙 最 奇特 的 生物 。 ” 40 年 前 , 英国 科幻 作家 Douglas Adams 在 他 的 《 银河系 漫游 指南 》 中 这样 描述 巴 别 鱼 ( bable fish ) : 迷你 黄色 生物 , 水蛭状 , 以 声音 中 的 语言 概念 为 食 , 消化 后 排出 跟 寄主 同频 的 脑波 。 只要 塞 到 耳朵 里 去 , 就 可以 听懂 各 种 语言 。 而 在 这个 充满 嬉皮 风格 的 科幻 作品 中 , 来自 地球 的 Arthur Dent 也 因为 这 条 丑陋 的 鱼 , 能够 完美 地 理解 并 与 他 遇到 的 各 种 外星 种族 交流 。 [ 85 ] 自 小说 诞生 , 巴 别 鱼 便 成为 了 即时 语音 翻译 的 代名词 。 但 在 当时 , 人类 的 翻译 技术 距离 这 一 目标 仍 遥不可及 。 直 到 2014年 , 加拿大 蒙特利尔 大学 的 Kyunghyun Cho 、 Yoshua Bengio 等 人 发布 了 一 篇 在 机器 翻译 领域 应用 神经 网络 的 论文 —— Neural Machine Translation by Jointly Learning to Align and Translate 。 神经 网络 的 出现 , 让 优质 高效 的 机器 翻译 不再 遥遥无期 。 机器 翻译 能力 是 如何 赶超 人类 的 ? 神经 网络 迅速 成为 了 近代 机器 翻译 领域 最 有 活力 的 “ 鲶鱼 ” 。 短短 两 年 , 基于 神经 网络 的 机器 翻译 便 已 取代 统计 学派 成为 翻译 领域 的 主流 研究 方法 。 谷歌 、 微软 等 公司 也 纷纷 宣布 将 这个 新 的 技术 应用 到 其 翻译 等 产品 之中 。 两 年 来 , 神经 网络 翻译 能力 超过 了 翻译 界 过去 几十 年 的 成绩 。 神经 网络 翻译 出现 后 , 机器 翻译 的 单词 错误率 降低 了 50% , 词汇 错误 和 语法 错误率 也 都 分别 降低 了 1 5% 以上 。 而 除 神经 网络 的 应用 之外 , 机器 翻译 错误率 的 大幅度 降低 , 还 基于 另 一 个 条件 —— 大 规模 精准 平行 语料 数据集 的 积累 。 决定 机器 翻译 质量 的 因素 中 数据 占据 绝对 的 主导 地位 。 数据 量 的 大小 和 精准 程度 决定 了 机器 翻译 引擎 的 效果 。 十 年 前 , 谷歌 在 机器 翻译 领域 下 过 一 个 论断 : 数据集 规模 每 翻 一 倍 , 它 自动 评价 的 指标 就 能够 提升 0.5 个 百分点 。 这 一 说法 让 有 大 规模 、 准确 数据 积累 的 组织 、 企业 有 了 抢占 机器 翻译 市场 制高点 的 机会 。 但是 , 垂直 级 的 机器 翻译 并非 一蹴而就 , 哪怕 是 互联网 巨头们 , 也 未 轻易 地 将 触手 伸入 垂直 级 的 机器 翻译 领域 。 为了 填补 了 这 一 领域 的 空白 , 中译语通 率先 推出 MerCube , 是 全球 第一 个 企业级 机器 翻译 硬件 。 在 具体 场景 下 , 想要 实现 产品 级 应用 的 机器 翻译 系统 , 需要 上千万 级别 的 句对 。 另 一 个 方面 是 目前 数据集 的 不均衡 问题 。 在 语种 上 , 英文 为 主导 的 数据集 占 比较 多 , 而 偏小 语种 的 比如 波斯语 、 土耳其语 等 数据集 就 很 难 找到 。 除了 语言 不均衡 , 数据集 领域 不均衡 的 问题 也 很 严重 。 机器 翻译 技术 对 大量 数据 的 需求 和 实际 市场 上 流通 的 存量 数据 的 差距 很 大 , 这 就 给 了 在 翻译 界 有 深厚 历史 积累 的 公司 发力 的 机会 。 互联网 公司 的 数据 积累 多 来自 C端 用户 , 因此 数据集 不均衡 、 数据 质量 差 的 问题 突出 。 而 脱身 传统 行业 的 翻译 公司 , 在 翻译 数据集 的 把握 上 有 自己 的 优势 —— 更 精 准 、 更 多样 的 数据集 。 例如 , 中国 翻译 领域 最 大 的 语料 数据库 所有者 —— 中译语通 。 据 了解 , 这 家 脱胎 于 中国 对外 翻译 有限 公司 的 团队 了 拥有 37 个 语种 的 翻译 语 料库 , 掌握 超过 五十亿 句 对 平行 语料 , 上百亿 句 单语 语料 。 靠着 在 翻译 领域 的 这 一 优势 , 中译语通 这 一 以 语言 服务 起家 , 迅速 转型 为 人工 智能 和 大 数据 的 技术 公司 , 有望 与 谷歌 、 微软 等 互联网 巨头 , 在 机器 翻译 服务 领域 分 一 杯 羹 。 机器 翻译 服务 之痛 机器 翻译 由于 技术 的 进步 在 处理 能力 上 正 迅速 赶超 人类 , 企业 用户 对 机器 翻译 的 认可 度 越来越 高 , 但 在 服务 形式 上 多 年 来 却 几乎 一成不变 。 目前 , to b 端 的 翻译 服务 主要 面临 两 个 痛点 : 首先 在 翻译 形式 上 , 以 文本 翻译 为例 , 基于 c 端 服务 的 延续性 , 多数 文本 翻译 模式 依然 是 10 年 前 的 对话 框 字句 粘贴 式 翻译 , 根本 无法 满足 大 规模 、 短时间 翻译 的 需求 。 [ 85 ] 除此之外 , 多数 企业 和 个人 对 数据 安全 意识 的 提高 , 也 让 他们 对 本地化 翻译 有 了 更高 要求 。 目前 , 主要 to b 端 的 翻译 服务 都 需要 被 翻译 内容 上 云 , 在 Facebook 数据 泄漏 丑闻 及 欧盟 数据 安全法 生效 的 背景 下 , 不少 企业 期待 更 本地化 、 安全 的 翻译 服务 。 据 中译语 通 相关 研究 报告 显示 , 仅 在 中国 , 对 大 规模 、 本地化 翻译 服务 的 需求 市场 高达 百亿 级 。 而 “ 国际 市场 应该 会 更大 。 比如说 一带 一 路 沿线 国家 , 整个 拓展 出来 应该 是 一 个 巨大 的 市场 。 ” 中 译语 通称 。 从 硬件 入手 , 垂直 领域 的 翻译 服务 升级 这样 的 调研 结果 让 中译语通 看到 了 to b 端 翻译 市场 服务 升级 的 巨大 潜力 。 今年 五月份 , 中译语通 开始 尝试 机器 翻译 上 to b端 新 的 服务 方式 , 但 这 不 是 一 件 容易 的 事情 。 [ 85 ] [ 85 ] 图 : 7 月份 的 品牌 战略 发布 会上 , 中译语通 发布 了 MerCube 企业级 机器 翻译 服务器 。 MerCube 产品 性能 表 显示 , MT G8 单 台 处理 能力 可 达到 16000 字 / 秒 , MerCube ASR 可 实现 将 1 小时 的 音视频 在 1 分钟 内 识别 、 解析 完成 并 导出 文件 。 “ ( 开发 这 款 产品 的 ) 契机 更多 还是 市场 的 驱动 , 很多 客户 其实 是 主动 来 找 我们 , 觉得 这个 机器 翻译 不错 , 想买 这个 ( 产品 ) , 想 本地化 部署 。 ” 为了 满足 客户 对 安全性 的 要求 , 中译语通 希望 推出 一 款 可以 提供 专属 的 私有化 部署 方式 的 产品 , 让 信息 在 受控 环境 下 运转 , 原文 / 译文 本地化 存储 , 解决 用户 的 数 据 安全 问题 。 要 本地化 部属 , 首先 对 产品 的 硬件 能力 是 一 个 巨大 的 考验 。 “ 最 开始 , 我们 也 想过 让 用户 自己 配备 硬件 的 方式 。 可是 在 服务 的 过程 当中 , 你 会 发现 用户 买 的 硬件 是 五花八门 的 。 即使 我们 做好 了 配置 , 实施 过程 也 比较 曲折 。 ” 中译语 通称 。 此次 发布 的 MerCube 也 因此 直接 配置 了 硬件 能力 —— 搭载 了 NVIDIA 有史以来 极其 先进 的 数据 中心 级 GPU Tesla V100 , 通过 这 种 方式 , 一次性 解决 了 用户 的 软件 和 硬件 需求 。 区别于 原来 在 标准 的 服务器 上 安装 软件 的 方式 , 中译语通 提供 一体机 的 解决 方案 , 将 机器 翻译 引 擎与 硬件 完美 融合 , 从 底层 技术 上 做 了 改进 , 同等 配置 条件 下 可以 大大 提升 处理 效率 。 [ 85 ] 图 : MerCube 采用 了 NVIDIA® NVLink™ 技术 , 提供 更高 带宽 与 更多 链路 , 可 提升 多 GPU 和 多 GPU / CPU 系统 配置 的 可扩展性 。 垂直 领域 的 翻译 服务 依赖 领域 内 的 长期 积累 。 以 中译语通 为例 , 2014年 其 开始 自主 研发 机器 翻译 引擎 , 同年 6月 发布 中英 统计 机器 翻译 引擎 , 是 继 谷歌 、 微软 、 百 度 之后 , 国内 最早 进行 机器 翻译 引擎 研发 的 企业 。 这样 的 早期 布局 为 中译 语通 占据 了 先 发 优势 , 中译语 通称 , 目前 每 年 的 数据 增长 达到 了 平行 语料 两 亿 句 对 、 单语 语料 五亿 句 对 的 速度 。 在 2015年 12 月 , 中译语通 发布 了 包含 37 个 语种 的 机器 翻译 引擎 , 成为 国内 翻译 领域 支持 语种 数量 最 多 的 企业 。 在 机器 翻译 领域 , 每 种 新 的 语种 扩展 都 需要 千万 句 对 , 要 达到 工业级 的 应用 , 在 数据集 数量 上 要求 更 高 。 这 也 是 目前 很多 企业 放弃 了 这个 方向 的 原因 。 目前 , 中译语通 的 37 个 语种 包含 了 “ 一带 一 路 ” 沿线 18 个 官方 语言 中 的 14 个 , 并且 语种 范围 还 在 持续 扩大 。 而 在 这 一 大 背景 下 , 配合 硬件 产品 , 打通 了 软件 和 数据 的 垂直 服务者 在 机器 翻译 领域 大有可为 。 未来 面前 , 你 我 还 都 是 孩子 , 还 不 去 下载 虎嗅 App 猛嗅 创新 ! + 1 29 别 打 CALL , 打钱 别 打 CALL , 打钱___________ 完成 最多 15 字 哦 0 人 已 赞赏 说 点 什么 登录 后 参与 评论 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ( BUTTON ) 发表 [ jpg ] 钱德虎 东四 之 虎 首席 硬稿官 * 22 篇 文章 最近 文章 解码 运动 + 科技 , 看 Keep 的 第二 盘 棋 热门 标签 全部 * 电影 * 腾讯 * 创业 * 程序员 * 微信 * 张勇 * 开放 平台 * 云南 * 腾讯 视频 热 文 * [ jpg ] 90 后 人均 负债 12万 , 这 届 年轻人 为何 那么 穷 * [ jpg ] 他们 回归 北上 广 , 大理 也 没有 “ 诗 和 远方 ” * [ jpg ] 大 张伟 : 叛逆 未遂 * [ jpg ] 《 燃点 》 观后感 : 两 个 字 , 不燃 * [ jpg ] 巴别塔 的 又 一 次 倒掉 * [ jpg ] 一 份 CES 2019 科技 巨头 小 复盘 * [ jpg ] 外交部 回应 波兰 拘押 华为 员工 : 要求 波方 依法 公正 妥善 处理 | 过去 24 小时 发生 的 新鲜 事儿 * [ jpg ] 蒂姆·库克 , 中国 是 一 道坎 , iPhone 是 一 座 山 * [ jpg ] 大 厂 程序员 的 老实 人生 结束 了 * [ jpg ] 今年 程序 猿 没有 年终奖 * ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________ 提交 请 输入 反馈 信息 用户 反馈 [ png ] 虎 嗅 APP 回到 顶部 关于 我们 加入 我们 合作 伙伴 广告 及 服务 常见 问题 解答 防 网络 诈骗 专题 Copyright © 虎 嗅 网 京 ICP 备 12013432号 - 1 京 公网 安备 11010102001402 号 本站 由 提供 计算 与 安全 服务 * [ weixin_erweima.png ] * [ app_erweima.png ] * [ app_erweima.png ]