BT * 投稿 * 活动 * 关于我们 * 合作伙伴 * 欢迎关注我们的: * * * InfoQ - 促进软件开发领域知识与创新的传播 搜索关键词_______________ Submit 登录 * En | * 中文 | * 日本 | * Fr | * Br 966,690 十二月 独立访问用户 * 语言 & 开发 + Java + Clojure + Scala + .Net + 移动 + Android + iOS + HTML 5 + JavaScript + 函数式编程 + Web API 特别专题 语言 & 开发 为什么Kubernetes不使用libnetwork 浏览所有 语言 & 开发 * 架构 & 设计 + 架构 + 企业架构 + 性能和可伸缩性 + 设计 + 案例分析 + 设计模式 + 安全 特别专题 架构 & 设计 解读2015之云计算篇:打磨产品服务,迎接市场变局 InfoQ策划了『解读2015』年终技术盘点系列文章,本文是云计算篇。在云计算领域,过去的这一年发生了一系列具有标志性的事件。公有云与 私有云的争执尚未平息,容器云已经势如野火,开源技术生态圈的产品和服务仍需打磨,云安全将是企业长期关注的重点。而接下来的2016年,市场 竞争将更为激烈,云厂商梯队间的距离将被拉大。 浏览所有 架构 & 设计 * 数据科学 + 大数据 + NoSQL + 关系型数据库 特别专题 数据科学 YY游戏私有云平台实践 YY游戏的页游早已在云平台上运行,Cloud 1.0已经支撑几十万的同时在线用户。Cloud 2.0的一个主要目标是支撑端游,同时也将继续服务页游、手游的运营。这次架构升级是一次完全重构,抛弃OpenStack,网络、计算、存储 业务都是自己实现。作为YY游戏云平台的负责人,我在本文里主要描述我们需要建设一个什么样的云平台,以及如何建设。 浏览所有 数据科学 * 文化 & 方法 + Agile + 领导能力 + 团队协作 + 测试 + 用户体验 + Scrum + 精益 特别专题 浏览所有 * DevOps + 持续交付 + 自动化操作 + 云计算 特别专题 DevOps 为什么Kubernetes不使用libnetwork 浏览所有 DevOps [USEMAP:20160108_banner.jpg] * StuQ教育 * EGO组织 * 移动 * Docker * 开源 * 云计算 * 大数据 * 架构师 * 阿里百川 * QCon * ArchSummit * UnitedStack 全部话题 您目前处于: InfoQ首页 新闻 FiloDB:用于大数据分析的分布式数据库 FiloDB:用于大数据分析的分布式数据库 作者 张天雷 发布于 2015年11月6日 | * 分享到: 微博 微信 Facebook Twitter 有道云笔记 邮件分享 * "稍后阅读" * "我的阅读清单" 近期,TupleJump杰出工程师、Spark和Cassandra的用户和贡献者、Spark Job Server的联合创建人和维护者Evan Chan详细介绍了用于大数据分析的分布式数据库FiloDB,对其主要特点和所包含模块进行了分析。 在当今的大数据时代,越来越多的企业需要对结构化的数据进行分析和查询,需要对流数据进行快速处理和更新。以视频分析为例,存储和分析系统可能每天处理 的事件超过30亿个,并且要针对实时发生的事件进行统计和分析。如此大规模、高速度的数据处理迫切需要高可扩展性、易于更新和获取新数据、支持快速的分 析查询、支持极其灵活查询的系统的支持。 作为一种列存储格式,Apache Parquet很好的实现了节省空间和减少IO的目的,满足了上述问题的部分需求。但是,Parquet是一种读优化的格式,存在不支持幂等写、没有针 对小更新的写优化、不适合时间序列和IoT等缺点。因此,很多开发人员转向了Apache Cassandra这种NoSQL数据库。Cassandra很好的实现了水平可扩展、数据建模非常灵活、操作简单、实时和机器数据的获取容易等特性。 但是,该数据库支持简单查询,而且是面向OLTP(联机事务处理)的。为了更好的解决上述问题,TupleJump提出了一种开源、分布式、列存储数据 库——FiloDB。 作为一种OLAP(联机分析处理),FiloDB可以获取机器数据、事件数据和时间序列数据等各种类型的流数据,然后进行非常快速的分析查询。其主要特 点包括: * 分布式。FiloDB在设计之初便考虑其底层平台为Apache Cassandra等分布式存储平台。因此,FiloDB支持Apache Spark采用并行查询的方式来加速分析。 * 列存储。FiloDB通过使用带有字典压缩等节省空间技术的列存储来带来性能的提升。其性能与Parquet不相上下,比运行在Cassand ra 2.x上的Spark要快1到2个数量级。 * 版本化。FiloDB增量的增加一列或者若干行作为一个新的版本。相比于基于文件的技术,FiloDB提供更多的灵活性,使得回滚操作变得简单 。 FiloDB使用Apache Cassandra作为其存储引擎,使用Apache Spark作为其计算层。Apache Cassandra作为一套开源分布式Key-Value存储系统,具有分布式、基于column的结构化和高可扩展性等特点。之前,很多用户已经尝试 把Apache Spark和Cassandra表结合在一起,进行更加丰富的分析。然而,Cassandra CQL表格面向行的存储方式使得把大量数据导入到Spark非常慢。FiloDB充分利用了列存储的优势和Apache Spark的灵活性和丰富性,使得Cassandra的处理速度实现了100倍的提升。 此外,FiloDB使用Apache Spark SQL和DataFrame作为其主要的查询机制。用户可以使用常见的SQL语法进行查询或者使用Spark的JDBC连接器链接Tableau等工具 进行数据查询。同时,Spark的机器学习MLlib库以及图形处理的GraphX都可以用到数据中。通过Spark DataFrame进行数据获取也非常容易。FiloDB支持通过任何JDBC数据源、Parquet和Avro文件、Cassandra表等等进行数 据获取。其中,还包括从Spark Streaming和Apache Kafka来插入数据。 在流应用方面,FiloDB可以接受来自Apache Kafka的流事件、时间序列和IoT应用类型数据的一次性获取。而且,FiloDB可以通过简单的SQL语句,完成极快速的特设分析。数据库中的每一 行都有一个分割和排列键。使用相同键的写操作是幂等的。幂等写支持事件数据的一次完全存储。 最后,使用Kafka+Spark+Cassandra+FiloDB可以很好的实现整个Lamba架构。不需要Cassandra和Hadoop作为 双重获取通道,使用SMACK栈(Spark/Scala,Mesos,Akka,Cassandra和Kafka)可以有效减少架构的资金投入。 目前,该开源项目已经放置在GitHub中。用户通过git clone下载后,可以直接启动filo-cli或者将其作为一个Spark数据源来使用。例如,通过下列命令即可验证数据集中的元数据: ./filo-cli --command list --dataset gdelt FiloDB团队表示,非常希望用户能够反馈在Cassandra和Spark使用的案例或者进行代码贡献。这些反馈可能会直接影响到FiloDB下一 步的一些特性。 __________________________________________________________________ 感谢杜小芳对本文的审校。 给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀) ,微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群 InfoQ好读者 )。 * 领域 * 架构 & 设计 * 语言 & 开发 * 专栏 * FiloDB 相关内容 相关厂商内容 Twitter Messaging的架构演化之路 业务核心架构,根据业务需求设计合理架构 QCon北京2016大会,4月21-23日,与您相约北京国际会议中心,2月21前报名享8折优惠! 相关赞助商 [QConSHlogo.jpg] QCon北京2016大会,4月21-23日,北京·国际会议中心,精彩内容邀您参与! 您好,朋友! 您需要 注册一个InfoQ账号 或者 登录 才能进行评论。在您完成注册后还需要进行一些设置。 获得来自InfoQ的更多体验。 告诉我们您的想法 ____________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p [ ] 当有人回复此评论时请E-mail通知我 [BUTTON Input] (not implemented)____________ 社区评论 关闭 by 发布于 * 查看 * 回复 * 回到顶部 关闭____________________________ 您的回复 引用原消息 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p [ ] 当有人回复此评论时请E-mail通知我 [BUTTON Input] (not implemented)____________ 取消 关闭____________________________ 您的回复 ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ ____________________________________________________________ 允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p [ ] 当有人回复此评论时请E-mail通知我 [BUTTON Input] (not implemented)_____ 取消 关闭 OK 讨论 赞助商链接 语言 & 开发 微软开源Chakra,并计划在上面运行Node.js NativeScript 1.5发布,新增TypeScript支持 Paket:一个面向.NET的包管理器 架构 & 设计 Paket:一个面向.NET的包管理器 Linux社区沉痛悼念Ian Murdock的离世 解读2015之云计算篇:打磨产品服务,迎接市场变局 文化 & 方法 如何构建创新文化——技术视角 你是否应该成为一名全栈工程师? 听Riley Newman说Airbnb是如何使用数据科学的 数据科学 听Riley Newman说Airbnb是如何使用数据科学的 YY游戏私有云平台实践 AWS迷你书:云计算让数据管理变得更轻松 DevOps 为什么Kubernetes不使用libnetwork 创业公司Afero推出解决物联网通信安全的平台 关于云迁移的经验总结 * 首页 * 全部话题 * QCon全球软件开发大会 * 关于我们 * 投稿 * 创建账号 * 登录 * 全球QCon * [javascript] 伦敦 2016年3月7-11日 * [javascript] 圣保罗 2016年3月28日-4月1日 * [javascript] 北京 2016年4月21-23日 * [javascript] 纽约 2016年6月13日-6月17日 * [javascript] 里约热内卢 2016年10月3-7日 * [javascript] 上海 2016年10月20-22日 * [javascript] 旧金山 2016年11月7-11日 InfoQ每周精要 通过个性化定制的新闻邮件、RSS Feeds和InfoQ业界邮件通知,保持您对感兴趣的社区内容的时刻关注。 您的邮箱________________ 订 * 属于您的个性化RSS * InfoQ官方微博 * InfoQ官方微信 * 社区新闻和热点 特别专题 * 活动专区 * UnitedStack专区 * 月刊:《架构师》 * AWS专区 * 百度技术沙龙专区 * 阿里百川专区 * 七牛专区 * 融云 * EGO超级极客邦 * StuQ提升你技能 * 信息无障碍参考文档 定制您感兴趣的技术领域 [X] 语言 & 开发 [X] 架构 & 设计 [X] 数据科学 [X] 文化 & 方法 [X] DevOps 这会影响您在主页和RSS订阅中看到的内容。点击“偏好设置”可选择更多精彩定制内容。 提供反馈 feedback@cn.infoq.com 错误报告 bugs@cn.infoq.com 商务合作 sales@cn.infoq.com 内容合作 editors@cn.infoq.com Marketing marketing@infoq.com InfoQ.com及所有内容,版权所有 © 2006-2015 C4Media Inc. InfoQ.com 服务器由 Contegix提供, 我们最信赖的ISP伙伴。 北京创新网媒广告有限公司 京ICP备09022563号-7 隐私政策 BT Close E-mail ____________________ 密________________________ Submit 使用Google账号登录 使用Microsoft账号登录 使用Weibo账号登录 使用QQ账号登录 忘记密码? InfoQ账号使用______________________________ (BUTTON) 发送邮件 重新登录 重新发____________________________________ (BUTTON) 重新发送 重新登录 没有用户名? 点击注册 您的个人介绍是最新的么?请确认并更新。 E-mail ____________________ 注意:如果要修改您的邮箱,我们将会发送确认邮件到您原来的邮箱。 公司[ ]称: [_] 使用现有的公司名称 修改公____________________________________ 公司[ ]质: [_] 使用现有的公司性质 修改公____________________________________________________..............] 公司[ ]模: [_] 使用现有的公司规模 修改公司规模为: [___________] 国[ ] [_] 使用现在的国家 更新--- 选择您的国家 ---__________________--..................] 省[ ] [_] 使用现在的省份 更新省份: [ ] Subscribe to our newsletter? [ ] Subscribe to our industry email notices? 提交 请根据验证邮件确认新的邮件地址。