kylinapache融资_大数据分析界的“神兽”Apache Kylin有多牛

Ⅰ 大数据分析界的“神兽”Apache Kylin有多牛

1.Apache Kylin是什么？

在现在的大数据时代，越来越多的企业开始使用Hadoop管理数据，但是现有的业务分析工具（如Tableau，Microstrategy等）
往往存在很大的局限，如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持；而利用Hadoop做数据分析依然存在诸多障碍，例如大多数分析
师只习惯使用SQL，Hadoop难以实现快速交互式查询等等。神兽Apache Kylin就是为了解决这些问题而设计的。

Apache Kylin，中文名麒（shen）麟（shou）是Hadoop动物园的重要成员。Apache
Kylin是一个开源的分布式分析引擎，最初由eBay开发贡献至开源社区。它提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持大
规模数据，能够处理TB乃至PB级别的分析任务，能够在亚秒级查询巨大的Hive表，并支持高并发。

Apache
Kylin于2014年10月在github开源，并很快在2014年11月加入Apache孵化器，于2015年11月正式毕业成为Apache顶级项
目，也成为首个完全由中国团队设计开发的Apache顶级项目。于2016年3月，Apache
Kylin核心开发成员创建了Kyligence公司，力求更好地推动项目和社区的快速发展。

Kyligence是一家专注于大数据分析领域创新的数据科技公司，提供基于Apache
Kylin的企业级智能分析平台及产品，以及可靠、专业、源码级的商业化支持；并推出Apache Kylin开发者培训，颁发全球唯一的Apache
Kylin开发者认证证书。

2.Kylin的基本原理和架构

下面开始聊一聊Kylin的基本原理和架构。简单来说，Kylin的核心思想是预计算，即对多维分析可能用到的度量进行预计算，将计算好的结果保
存成Cube，供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询，这决定了Kylin能够拥有很好的快速查询和高并发能
力。

上图所示就是一个Cube的例子，假设我们有4个dimension，这个Cube中每个节点（称作Cuboid）都是这4个dimension
的不同组合，每个组合定义了一组分析的dimension（如group
by），measure的聚合结果就保存在这每个Cuboid上。查询时根据SQL找到对应的Cuboid，读取measure的值，即可返回。

为了更好的适应大数据环境，Kylin从数据仓库中最常用的Hive中读取源数据，使用
MapRece作为Cube构建的引擎，并把预计算结果保存在HBase中，对外暴露Rest
API/JDBC/ODBC的查询接口。因为Kylin支持标准的ANSI
SQL，所以可以和常用分析工具（如Tableau、Excel等）进行无缝对接。下面是Kylin的架构图。

说到Cube的构建，Kylin提供了一个称作Layer Cubing的算法。简单来说，就是按照dimension数量从大到小的顺序，从Base
Cuboid开始，依次基于上一层Cuboid的结果进行再聚合。每一层的计算都是一个单独的Map Rece任务。如下图所示。

MapRece的计算结果最终保存到HBase中，HBase中每行记录的Rowkey由dimension组成，measure会保存在
column
family中。为了减小存储代价，这里会对dimension和measure进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有
良好的快速响应和高并发。

有了这些预计算的结果，当收到用户的SQL请求，Kylin会对SQL做查询计划，并把本该进行的Join、Sum、Count Distinct等操作改写成Cube的查询操作。

Kylin提供了一个原生的Web界面，在这里，用户可以方便的创建和设置Cube、管控Cube构建进度，并提供SQL查询和基本的结果可视化。

根据公开数据显示，Kylin的查询性能不只是针对个别SQL，而是对上万种SQL 的平均表现，生产环境下90%ile查询能够在在3s内返回。在上个月举办的Apache Kylin

Meetup中，来自美团、京东、网络等互联网公司分享了他们的使用情况。例如，在京东云海的案例中，单个Cube最大有8个维度，最大数据条数4亿，最
大存储空间800G，30个Cube共占存储空间4T左右。查询性能上，当QPS在50左右，所有查询平均在200ms以内，当QPS在200左右，平均
响应时间在1s以内。

北京移动也在meetup上展示了Kylin在电信运营商的应用案例，从数据上看，Kylin能够在比Hive/SparkSQL在更弱的硬件配置下获得更好的查询性能。目前，有越来越多的国内外公司将Kylin作为大数据生产环境中的重要组件，如ebay、银联、网络、中国移动等。大家如果想了解更多社区的案例和动态，可以登录Apache Kylin官网或Kyligence博客进行查看。

3.Kylin的最新特性

Kylin的最新版本1.5.x引入了不少让人期待的新功能，可扩展架构将Kylin的三大依赖（数据源、Cube引擎、存储引
擎）彻底解耦。Kylin将不再直接依赖于Hadoop/HBase/Hive，而是把Kylin作为一个可扩展的平台暴露抽象接口，具体的实现以插件的
方式指定所用的数据源、引擎和存储。

开发者和用户可以通过定制开发，将Kylin接入除Hadoop/HBase/Hive以外的大数据系统，比如用Kafka代替Hive作数据源，用
Spark代替MapRece做计算引擎，用Cassandra代替HBase做存储，都将变得更为简单。这也保证了Kylin可以随平台技术一起演
进，紧跟技术潮流。

在Kylin
1.5.x中还对HBase存储结构进行了调整，将大的Cuboid分片存储，将线性扫描改良为并行扫描。基于上万查询进行了测试对比结果显示，分片的存
储结构能够极大提速原本较慢的查询5-10倍，但对原本较快的查询提速不明显，综合起来平均提速为2倍左右。

除此之外，1.5.x还引入了Fast
cubing算法，利用Mapper端计算先完成大部分聚合，再将聚合后的结果交给Recer，从而降低对网络瓶颈的压力。对500多个Cube任务
的实验显示，引入Fast cubing后，总体的Cube构建任务提速1.5倍。

目前，社区正在着手准备Apache Kylin 1.5.2版本的发布，目前正处于Apache Mailing list投票阶段，预计将会在本周在Kylin官网发布正式下载。

在本次的1.5.2版本中，Kylin带来了总计
36个缺陷修复、33个功能改进、6个新功能。一些主要的功能改进包括对HyperLogLog计算效率的提升、在Cube构建时对Convert
data to hfile步骤的提速、UI上对功能提示的体验优化、支持hive view作为lookup表等等。

另一个新消息是Kylin将支持MapR和CDH的Hadoop发行版，具体信息可见KYLIN-1515和KYLIN-1672。相应的测试版本是MapR5.1和CDH5.7。

UI上提供了一个重要更新，即允许用户在Cube级别进行自定义配置，以覆盖kylin.properties中的全局配置。如在cube中定义kylin.hbase.region.count.max 可以设置该cube在hbase中region切分的最大数量。

另
一个重要的功能是Diagnosis。用户经常会遇到一些棘手的问题，例如Cube构建任务失败、SQL查询失败，或Cube构建时间过长、SQL查询时
间过长等。但由于运维人员对Kylin系统了解不深，很难快速定位到root cause所在地。我们在mailing
list里也经常看到很多用户求助，由于不能提供足够充分的信息，社区也很难给出一针见血的建议。

当用户遇到查询、Cube/Model管理的问题，单击System页面的Diagnosis按钮，系统会自动抓取当前Project相关的信息并打包成
zip文件下载到用户本地。这个包会包含相关的Metadata、日志、HBase配置等。当用户需要在mailing
list求助，也可以附上这个包。

Ⅱ 影响apache kylin查询效率的因素有哪些

Ⅲ apache Kylin数据源扩展问题

Kylin Cube 建立和Job监控教程
Cube建立
首先，确认你拥有你想要建立的cube的权限。
在Cubes页面中，点击cube栏右侧的Action下拉按钮并选择Build操作。

选择后会出现一个弹出窗口。

点击END DATE输入框选择增量构建这个cube的结束日期。

点击Submit提交请求。

提交请求成功后，你将会看到Jobs页面新建了job。

如要放弃这个job，点击Discard按钮。

Job监控
在Jobs页面，点击job详情按钮查看显示于右侧的详细信息。

job详细信息为跟踪一个job提供了它的每一步记录。你可以将光标停放在一个步骤状态图标上查看基本状态和信息。

点击每个步骤显示的图标按钮查看详情：Parameters、Log、MRJob、EagleMonitoring。
Parameters

Log

Ⅳ 《ApacheKylin权威指南》pdf下载在线阅读，求百度网盘云资源

《Apache Kylin权威指南》（Apache Kylin核心团队著）电子书网盘下载免费在线阅读

链接：https://pan..com/s/1ELslz1LQ9DFOx_9DmPk9yw

提取码：qcui

书名：Apache Kylin权威指南

作者：Apache Kylin核心团队著

豆瓣评分：8.4

出版社：机械工业出版社

出版年份：2017-1

页数：188

内容简介：

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎，将大数据的查询速度和并发性能提升至原来的百倍以上，为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写，系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面，是关于Apache Kylin的权威指南。

第1章和第2章是基本概念和快速入门，为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建，应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优，它们是用好Apache Kylin，提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析，贯穿之前的所有概念，温故知新。第8章介绍可扩展架构和二次开发接口，适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源，以及Apache Kylin的未来。

作者简介：

本书由李扬为首的麒麟技术团队撰写。团队是Apache Kylin的主创团队。李扬是大数据架构师和工程师，专注大数据分析技术。他是Apache Kylin管理委员会成员，也是Kyligence Inc.（一家专业提供大数据商务智能服务的创业公司）创始人之一。李扬是Apache Kylin主创团队的架构师和技术负责人，在eBay期间从2014年开始开发Kylin项目。之前，李扬在IBM工作8年，在摩根士丹利工作2年。在IBM期间，他是“杰出技术贡献奖”的获奖者，曾担任InfoSphere BigInsights的技术负责人，负责Hadoop开源产品架构。在摩根士丹利期间，李扬担任副总裁，负责全球监管报表基础架构。

Ⅳ 如何部署Apache Kylin集群实现负载均衡

网络的负载均衡是一种动态均衡技术，通过一些工具实时地分析数据包，掌握网络中的数据流量状况，把任务合理均衡地分配出去。这种技术基于现有网络结构，提供了一种扩展服务器带宽和增加服务器吞吐量的廉价有效的方法，加强了网络数据处理能力，提高了网络的灵活性和可用性。

导航:首页 > 融资信托 > kylinapache融资

kylinapache融资

与kylinapache融资相关的资料