BT * 投稿 * 活动 * 关于我们 * 合作伙伴 * 欢迎关注我们的: * * * InfoQ - 促进软件开发领域知识与创新的传播 搜索关键词_______________ Submit 登录 * En | * 中文 | * 日本 | * Fr | * Br 966,690 十二月 独立访问用户 * 语言 & 开发 + Java + Clojure + Scala + .Net + 移动 + Android + iOS + HTML 5 + JavaScript + 函数式编程 + Web API 特别专题 语言 & 开发 为什么Kubernetes不使用libnetwork 浏览所有 语言 & 开发 * 架构 & 设计 + 架构 + 企业架构 + 性能和可伸缩性 + 设计 + 案例分析 + 设计模式 + 安全 特别专题 架构 & 设计 解读2015之云计算篇:打磨产品服务,迎接市场变局 InfoQ策划了『解读2015』年终技术盘点系列文章,本文是云计算篇。在云计算领域,过去的这一年发生了一系列具有标志性的事件。公有云与 私有云的争执尚未平息,容器云已经势如野火,开源技术生态圈的产品和服务仍需打磨,云安全将是企业长期关注的重点。而接下来的2016年,市场 竞争将更为激烈,云厂商梯队间的距离将被拉大。 浏览所有 架构 & 设计 * 数据科学 + 大数据 + NoSQL + 关系型数据库 特别专题 数据科学 YY游戏私有云平台实践 YY游戏的页游早已在云平台上运行,Cloud 1.0已经支撑几十万的同时在线用户。Cloud 2.0的一个主要目标是支撑端游,同时也将继续服务页游、手游的运营。这次架构升级是一次完全重构,抛弃OpenStack,网络、计算、存储 业务都是自己实现。作为YY游戏云平台的负责人,我在本文里主要描述我们需要建设一个什么样的云平台,以及如何建设。 浏览所有 数据科学 * 文化 & 方法 + Agile + 领导能力 + 团队协作 + 测试 + 用户体验 + Scrum + 精益 特别专题 浏览所有 * DevOps + 持续交付 + 自动化操作 + 云计算 特别专题 DevOps 为什么Kubernetes不使用libnetwork 浏览所有 DevOps [USEMAP:20160108_banner.jpg] * StuQ教育 * EGO组织 * 移动 * Docker * 开源 * 云计算 * 大数据 * 架构师 * 阿里百川 * QCon * ArchSummit * UnitedStack 全部话题 您目前处于: InfoQ首页 新闻 机器学习和大数据:是先有鸡还是先有蛋 机器学习和大数据:是先有鸡还是先有蛋 作者 张天雷 发布于 2015年11月9日 | 注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! * 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 * "稍后阅读" * "我的阅读清单" “对于机器学习,需要大量容易获得的历史数据。但是,如果你没有这个数据会怎样?” 现在,机器学习几乎无处不在,它经常出现在大数据应用之中。机器学习已经被赞誉为大数据分析和商务智能发展的未来。但是从机器学习中提取价值并不仅仅是 在一个新的工具中添加一个插件,或查看一下工作效率和销量的提高。 成功的机器学习项目依赖于很多因素,包括选择正确的主题,对于运行的环境,合理的机器学习模型,当然最重要的是现有的数据。 大数据时代,数据就是财富。我们不得不承认,关于客户交易、销售或设备运行日志的数据是企业所拥有的最宝贵的资产之一。特别是机器学习现在为企业提供的 机会远远超越传统的商业智能,比如可以帮助预测未来的销售或潜在的设备故障,从而提高利润和减少临时的维修。 另请参阅:庆祝过最佳进球吗?曲棍球球迷通过使用机器学习技术在客厅里创造史诗般的灯光秀: 数据,大还是小 在谈论“大数据”时,我们习惯于假设越多越好。虽然现实中常常的确也是这样,数据对于实时在线个性化应用是很关键的,但不同的任务对于数据大小的需求却 不尽相同。 对于机器学习任务来说,为了带来价值,虽然10Gb的日志似乎有些少,但有时其实也可以刚好够用,具体要看面对什么样的任务。10Gb的数据对于Goo gle来说也许微不足道,但实际上足以给一个传统的线下企业带来一个巨大的变化。 一个拥有75000人的大公司的人力资源管理部门。如果公司试图预测流动风险,以便更好地规划未来的人力资源战略,并及时采取预防措施,那么他们就可以 使用机器学习,而机器学习就可以从分析员工记录开始。这些记录每天都有巨大的不同,反映在工作的时间,角色的转变,通过的培训课程,休病假的天数,等等 。虽然这种数据量可能被认为是过少,则深度地挖掘各种要素需要它超越简单的统计,走向机器学习。 在另一个极端,有些公司可能认为他们拥大量的珍贵数据,如很多年的销售报告,可以后来才发现,它们只可作为集成数据,而没有存储原始输入。机器学习需要 从细节中学习,仅仅拥有每季度或每年的集成数据对任务来说根本不够。 因此需要数据的多少关键在于用户所面对的具体任务。 历史的经验教训 通常数据集拥有一个时间跨度,而这个时间跨度是非常重要的,它应该足够的长,以反映所有相关的事件以及周期性的变化。例如,如果一个组织要建立一个工作 模型来预测一个零售公司的产品需求,这将至少需要两到三年的历史数据,这样才能容纳季节性的趋势。但是,如果要预测昂贵的制造设备几年才可能出现一次的 故障,就需要有一个远远长的多的历史数据,以便在故障出现之前检测异常情况并预测故障的发生。 同时,如果你带着巨大的客户基础和认购商业模型进入一个领域,例如移动电话网络、流媒体业务或在线游戏,利用短短六个月的数据开始一个有意义的机器学 项目(例如,预测客户的流失)是完全可行的。 通常情况下,数据的组织和存储是一个公司基础架构部门的关键任务,关系到公司的核心利益,如何选择合适的存储方案呢?是充斥着差异和错误的非结构化存储 ,还是未集成的十几个独立系统。虽然引进数个单独的存储库是摆脱数据孤岛、提高数据质量的一种有效方式,但这个过程是漫长的,非常昂贵,而且不会带来直 接的价值。但是,如果引入机器学习,利用非结构化存储依然可以帮助调整进一步的基础设施投资以及引导数据收集策略,非结构化存储目前是一种非常有效的数 据组织和存储方式。 数据还可以来自于其他什么地方? 很多企业忽略了一件很重要的事情,就是企业可以从外部环境中购买数据。 一方面,最强大和最重要的信号通常隐藏在该公司所拥有的数据中。因此,相比于银行客户的社交媒体行为,他们的交易中所蕴含的知识可以更好地预测客户是否 将偿还贷款。 另一方面,许多公司低估了外部因素的价值,如气候数据。它会对很多情况产生影响,如冰淇淋的需求,在需求不太明确的情况下,可以通过个性化推荐,将冰淇 淋推荐给那些在天气差时更可能留在家里玩游戏的网络游戏玩家。 因此企业除了利用自己的数据之外,还可以有很多的选择,例如社交网络平台,可以利用用户的在社交网络的足迹预测用户的偏好,又或者季节性数据,利用季节 性变化预测用户的未来行为,等等。 机器学习正在很快地从一个很少人关注的技术主题转变为被很多人使用的管理工具。为了避免错失良机,企业现在需要开始设计自己的机器学习项目,以帮助他们 为未来的机器学习做好准备。同时,企业需要理解哪些数据是可获得的,缺少的和需要的,现在就可以开始收集它们,以帮助他们更快地获得投资回报。 __________________________________________________________________ 感谢郭蕾对本文的审校。 给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀) ,微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群 InfoQ好读者 )。 * 领域 * 数据科学 * 架构 & 设计 * 语言 & 开发 * 专栏 * 数据库 * 大数据 * 机器学 相关内容 相关厂商内容 Twitter Messaging的架构演化之路 业务核心架构,根据业务需求设计合理架构 QCon北京2016大会,4月21-23日,与您相约北京国际会议中心,2月21前报名享8折优惠! 相关赞助商 [QConSHlogo.jpg] QCon北京2016大会,4月21-23日,北京·国际会议中心,精彩内容邀您参与! 您好,朋友! 您需要 注册一个InfoQ账号 或者 登录 才能进行评论。在您完成注册后还需要进行一些设置。 获得来自InfoQ的更多体验。 告诉我们您的想法 ____________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p [ ] 当有人回复此评论时请E-mail通知我 [BUTTON Input] (not implemented)____________ 社区评论 关闭 by 发布于 * 查看 * 回复 * 回到顶部 关闭____________________________ 您的回复 引用原消息 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p [ ] 当有人回复此评论时请E-mail通知我 [BUTTON Input] (not implemented)____________ 取消 关闭____________________________ 您的回复 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p [ ] 当有人回复此评论时请E-mail通知我 [BUTTON Input] (not implemented)_____ 取消 关闭 OK 讨论 赞助商链接 语言 & 开发 微软开源Chakra,并计划在上面运行Node.js NativeScript 1.5发布,新增TypeScript支持 Paket:一个面向.NET的包管理器 架构 & 设计 Paket:一个面向.NET的包管理器 Linux社区沉痛悼念Ian Murdock的离世 解读2015之云计算篇:打磨产品服务,迎接市场变局 文化 & 方法 如何构建创新文化——技术视角 你是否应该成为一名全栈工程师? 听Riley Newman说Airbnb是如何使用数据科学的 数据科学 听Riley Newman说Airbnb是如何使用数据科学的 YY游戏私有云平台实践 AWS迷你书:云计算让数据管理变得更轻松 DevOps 为什么Kubernetes不使用libnetwork 创业公司Afero推出解决物联网通信安全的平台 关于云迁移的经验总结 * 首页 * 全部话题 * QCon全球软件开发大会 * 关于我们 * 投稿 * 创建账号 * 登录 * 全球QCon * [javascript] 伦敦 2016年3月7-11日 * [javascript] 圣保罗 2016年3月28日-4月1日 * [javascript] 北京 2016年4月21-23日 * [javascript] 纽约 2016年6月13日-6月17日 * [javascript] 里约热内卢 2016年10月3-7日 * [javascript] 上海 2016年10月20-22日 * [javascript] 旧金山 2016年11月7-11日 InfoQ每周精要 通过个性化定制的新闻邮件、RSS Feeds和InfoQ业界邮件通知,保持您对感兴趣的社区内容的时刻关注。 您的邮箱________________ 订 * 属于您的个性化RSS * InfoQ官方微博 * InfoQ官方微信 * 社区新闻和热点 特别专题 * 活动专区 * UnitedStack专区 * 月刊:《架构师》 * AWS专区 * 百度技术沙龙专区 * 阿里百川专区 * 七牛专区 * 融云 * EGO超级极客邦 * StuQ提升你技能 * 信息无障碍参考文档 定制您感兴趣的技术领域 [X] 语言 & 开发 [X] 架构 & 设计 [X] 数据科学 [X] 文化 & 方法 [X] DevOps 这会影响您在主页和RSS订阅中看到的内容。点击“偏好设置”可选择更多精彩定制内容。 提供反馈 feedback@cn.infoq.com 错误报告 bugs@cn.infoq.com 商务合作 sales@cn.infoq.com 内容合作 editors@cn.infoq.com Marketing marketing@infoq.com InfoQ.com及所有内容,版权所有 © 2006-2015 C4Media Inc. InfoQ.com 服务器由 Contegix提供, 我们最信赖的ISP伙伴。 北京创新网媒广告有限公司 京ICP备09022563号-7 隐私政策 BT Close E-mail ____________________ 密________________________ Submit 使用Google账号登录 使用Microsoft账号登录 使用Weibo账号登录 使用QQ账号登录 忘记密码? InfoQ账号使用______________________________ (BUTTON) 发送邮件 重新登录 重新发____________________________________ (BUTTON) 重新发送 重新登录 没有用户名? 点击注册 您的个人介绍是最新的么?请确认并更新。 E-mail ____________________ 注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。 公司[ ]称: [_] 使用现有的公司名称 修改公____________________________________ 公司[ ]质: [_] 使用现有的公司性质 修改公____________________________________________________..............] 公司[ ]模: [_] 使用现有的公司规模 修改公司规模为: [___________] 国[ ] [_] 使用现在的国家 更新--- 选择您的国家 ---__________________--..................] 省[ ] [_] 使用现在的省份 更新省份: [ ] Subscribe to our newsletter? [ ] Subscribe to our industry email notices? 提交 请根据验证邮件确认新的邮件地址。