導航:首頁 > 融資信託 > kylinapache融資

kylinapache融資

發布時間:2022-04-09 15:48:32

Ⅰ 大數據分析界的「神獸」Apache Kylin有多牛

1.Apache Kylin是什麼?

在現在的大數據時代,越來越多的企業開始使用Hadoop管理數據,但是現有的業務分析工具(如Tableau,Microstrategy等)
往往存在很大的局限,如難以水平擴展、無法處理超大規模數據、缺少對Hadoop的支持;而利用Hadoop做數據分析依然存在諸多障礙,例如大多數分析
師只習慣使用SQL,Hadoop難以實現快速互動式查詢等等。神獸Apache Kylin就是為了解決這些問題而設計的。

Apache Kylin,中文名麒(shen)麟(shou) 是Hadoop動物園的重要成員。Apache
Kylin是一個開源的分布式分析引擎,最初由eBay開發貢獻至開源社區。它提供Hadoop之上的SQL查詢介面及多維分析(OLAP)能力以支持大
規模數據,能夠處理TB乃至PB級別的分析任務,能夠在亞秒級查詢巨大的Hive表,並支持高並發。

Apache
Kylin於2014年10月在github開源,並很快在2014年11月加入Apache孵化器,於2015年11月正式畢業成為Apache頂級項
目,也成為首個完全由中國團隊設計開發的Apache頂級項目。於2016年3月,Apache
Kylin核心開發成員創建了Kyligence公司,力求更好地推動項目和社區的快速發展。

Kyligence是一家專注於大數據分析領域創新的數據科技公司,提供基於Apache
Kylin的企業級智能分析平台及產品,以及可靠、專業、源碼級的商業化支持;並推出Apache Kylin開發者培訓,頒發全球唯一的Apache
Kylin開發者認證證書。

2.Kylin的基本原理和架構

下面開始聊一聊Kylin的基本原理和架構。簡單來說,Kylin的核心思想是預計算,即對多維分析可能用到的度量進行預計算,將計算好的結果保
存成Cube,供查詢時直接訪問。把高復雜度的聚合運算、多表連接等操作轉換成對預計算結果的查詢,這決定了Kylin能夠擁有很好的快速查詢和高並發能
力。

上圖所示就是一個Cube的例子,假設我們有4個dimension,這個Cube中每個節點(稱作Cuboid)都是這4個dimension
的不同組合,每個組合定義了一組分析的dimension(如group
by),measure的聚合結果就保存在這每個Cuboid上。查詢時根據SQL找到對應的Cuboid,讀取measure的值,即可返回。

為了更好的適應大數據環境,Kylin從數據倉庫中最常用的Hive中讀取源數據,使用
MapRece作為Cube構建的引擎,並把預計算結果保存在HBase中,對外暴露Rest
API/JDBC/ODBC的查詢介面。因為Kylin支持標準的ANSI
SQL,所以可以和常用分析工具(如Tableau、Excel等)進行無縫對接。下面是Kylin的架構圖。

說到Cube的構建,Kylin提供了一個稱作Layer Cubing的演算法。簡單來說,就是按照dimension數量從大到小的順序,從Base
Cuboid開始,依次基於上一層Cuboid的結果進行再聚合。每一層的計算都是一個單獨的Map Rece任務。如下圖所示。

MapRece的計算結果最終保存到HBase中,HBase中每行記錄的Rowkey由dimension組成,measure會保存在
column
family中。為了減小存儲代價,這里會對dimension和measure進行編碼。查詢階段,利用HBase列存儲的特性就可以保證Kylin有
良好的快速響應和高並發。

有了這些預計算的結果,當收到用戶的SQL請求,Kylin會對SQL做查詢計劃,並把本該進行的Join、Sum、Count Distinct等操作改寫成Cube的查詢操作。

Kylin提供了一個原生的Web界面,在這里,用戶可以方便的創建和設置Cube、管控Cube構建進度,並提供SQL查詢和基本的結果可視化。

根據公開數據顯示,Kylin的查詢性能不只是針對個別SQL,而是對上萬種SQL 的平均表現,生產環境下90%ile查詢能夠在在3s內返回。在上個月舉辦的Apache Kylin

Meetup中,來自美團、京東、網路等互聯網公司分享了他們的使用情況。例如,在京東雲海的案例中,單個Cube最大有8個維度,最大數據條數4億,最
大存儲空間800G,30個Cube共占存儲空間4T左右。查詢性能上,當QPS在50左右,所有查詢平均在200ms以內,當QPS在200左右,平均
響應時間在1s以內。

北京移動也在meetup上展示了Kylin在電信運營商的應用案例,從數據上看,Kylin能夠在比Hive/SparkSQL在更弱的硬體配置下獲得更好的查詢性能。 目前,有越來越多的國內外公司將Kylin作為大數據生產環境中的重要組件,如ebay、銀聯、網路、中國移動等。大家如果想了解更多社區的案例和動態,可以登錄Apache Kylin官網或Kyligence博客進行查看。

3.Kylin的最新特性

Kylin的最新版本1.5.x引入了不少讓人期待的新功能,可擴展架構將Kylin的三大依賴(數據源、Cube引擎、存儲引
擎)徹底解耦。Kylin將不再直接依賴於Hadoop/HBase/Hive,而是把Kylin作為一個可擴展的平台暴露抽象介面,具體的實現以插件的
方式指定所用的數據源、引擎和存儲。

開發者和用戶可以通過定製開發,將Kylin接入除Hadoop/HBase/Hive以外的大數據系統,比如用Kafka代替Hive作數據源,用
Spark代替MapRece做計算引擎,用Cassandra代替HBase做存儲,都將變得更為簡單。這也保證了Kylin可以隨平台技術一起演
進,緊跟技術潮流。

在Kylin
1.5.x中還對HBase存儲結構進行了調整,將大的Cuboid分片存儲,將線性掃描改良為並行掃描。基於上萬查詢進行了測試對比結果顯示,分片的存
儲結構能夠極大提速原本較慢的查詢5-10倍,但對原本較快的查詢提速不明顯,綜合起來平均提速為2倍左右。

除此之外,1.5.x還引入了Fast
cubing演算法,利用Mapper端計算先完成大部分聚合,再將聚合後的結果交給Recer,從而降低對網路瓶頸的壓力。對500多個Cube任務
的實驗顯示,引入Fast cubing後,總體的Cube構建任務提速1.5倍。

目前,社區正在著手准備Apache Kylin 1.5.2版本的發布,目前正處於Apache Mailing list投票階段,預計將會在本周在Kylin官網發布正式下載。

在本次的1.5.2版本中,Kylin帶來了總計
36個缺陷修復、33個功能改進、6個新功能。一些主要的功能改進包括對HyperLogLog計算效率的提升、在Cube構建時對Convert
data to hfile步驟的提速、UI上對功能提示的體驗優化、支持hive view作為lookup表等等。

另一個新消息是Kylin將支持MapR和CDH的Hadoop發行版,具體信息可見KYLIN-1515和KYLIN-1672。相應的測試版本是MapR5.1和CDH5.7。

UI上提供了一個重要更新,即允許用戶在Cube級別進行自定義配置,以覆蓋kylin.properties中的全局配置。如在cube中定義kylin.hbase.region.count.max 可以設置該cube在hbase中region切分的最大數量。


一個重要的功能是Diagnosis。用戶經常會遇到一些棘手的問題,例如Cube構建任務失敗、SQL查詢失敗,或Cube構建時間過長、SQL查詢時
間過長等。但由於運維人員對Kylin系統了解不深,很難快速定位到root cause所在地。我們在mailing
list里也經常看到很多用戶求助,由於不能提供足夠充分的信息,社區也很難給出一針見血的建議。

當用戶遇到查詢、Cube/Model管理的問題,單擊System頁面的Diagnosis按鈕,系統會自動抓取當前Project相關的信息並打包成
zip文件下載到用戶本地。這個包會包含相關的Metadata、日誌、HBase配置等。當用戶需要在mailing
list求助,也可以附上這個包。

Ⅱ 影響apache kylin查詢效率的因素有哪些

1.Apache Kylin是什麼?

在現在的大數據時代,越來越多的企業開始使用Hadoop管理數據,但是現有的業務分析工具(如Tableau,Microstrategy等)
往往存在很大的局限,如難以水平擴展、無法處理超大規模數據、缺少對Hadoop的支持;而利用Hadoop做數據分析依然存在諸多障礙,例如大多數分析
師只習慣使用SQL,Hadoop難以實現快速互動式查詢等等。神獸Apache Kylin就是為了解決這些問題而設計的。

Ⅲ apache Kylin數據源擴展問題

Kylin Cube 建立和Job監控教程
Cube建立
首先,確認你擁有你想要建立的cube的許可權。
在Cubes頁面中,點擊cube欄右側的Action下拉按鈕並選擇Build操作。

選擇後會出現一個彈出窗口。

點擊END DATE輸入框選擇增量構建這個cube的結束日期。

點擊Submit提交請求。

提交請求成功後,你將會看到Jobs頁面新建了job。

如要放棄這個job,點擊Discard按鈕。

Job監控
在Jobs頁面,點擊job詳情按鈕查看顯示於右側的詳細信息。

job詳細信息為跟蹤一個job提供了它的每一步記錄。你可以將游標停放在一個步驟狀態圖標上查看基本狀態和信息。

點擊每個步驟顯示的圖標按鈕查看詳情:Parameters、Log、MRJob、EagleMonitoring。
Parameters

Log

Ⅳ 《ApacheKylin權威指南》pdf下載在線閱讀,求百度網盤雲資源

《Apache Kylin權威指南》(Apache Kylin核心團隊 著)電子書網盤下載免費在線閱讀

鏈接:https://pan..com/s/1ELslz1LQ9DFOx_9DmPk9yw

提取碼:qcui

書名:Apache Kylin權威指南

作者:Apache Kylin核心團隊 著

豆瓣評分:8.4

出版社:機械工業出版社

出版年份:2017-1

頁數:188

內容簡介:

Apache Kylin是Hadoop大數據平台上的一個開源OLAP引擎,將大數據的查詢速度和並發性能提升至原來的百倍以上,為超大規模數據集上的互動式大數據分析打開了大門。本書由Apache Kylin核心開發團隊編寫,系統地介紹了Apache Kylin安裝、入門、可視化、模型調優、運維、二次開發等各個方面,是關於Apache Kylin的權威指南。

第1章和第2章是基本概念和快速入門,為初學者打下堅實基礎。第3章和第4章介紹增量構建和進階的流式構建,應對數據的持續增長。第5章展示豐富的查詢介面和其上的可視化能力。第6章則重點講解了Cube模型和調優,它們是用好Apache Kylin,提升百倍性能的關鍵。第7章通過一系列有行業特點的具體案例分析,貫穿之前的所有概念,溫故知新。第8章介紹可擴展架構和二次開發介面,適合開發者。第9章則介紹企業級功能、用戶的認證和授權相關知識。第10章著重於安裝和企業級部署、運維管理等內容。第11章和第12章分別說明如何參與和貢獻到開源,以及Apache Kylin的未來。

作者簡介:

本書由李揚為首的麒麟技術團隊撰寫。團隊是Apache Kylin的主創團隊。李揚是大數據架構師和工程師,專注大數據分析技術。他是Apache Kylin管理委員會成員,也是Kyligence Inc.(一家專業提供大數據商務智能服務的創業公司)創始人之一。李揚是Apache Kylin主創團隊的架構師和技術負責人,在eBay期間從2014年開始開發Kylin項目。之前,李揚在IBM工作8年,在摩根士丹利工作2年。在IBM期間,他是「傑出技術貢獻獎」的獲獎者,曾擔任InfoSphere BigInsights的技術負責人,負責Hadoop開源產品架構。在摩根士丹利期間,李揚擔任副總裁,負責全球監管報表基礎架構。

Ⅳ 如何部署Apache Kylin集群實現負載均衡

網路的負載均衡是一種動態均衡技術,通過一些工具實時地分析數據包,掌握網路中的數據流量狀況,把任務合理均衡地分配出去。這種技術基於現有網路結構,提供了一種擴展伺服器帶寬和增加伺服器吞吐量的廉價有效的方法,加強了網路數據處理能力,提高了網路的靈活性和可用性。

閱讀全文

與kylinapache融資相關的資料

熱點內容
不同形態的金融資產的流動性不同 瀏覽:153
元理財基金 瀏覽:838
黃金代碼查詢 瀏覽:259
同方股份收購壹人壹本失敗 瀏覽:334
上海長江聯合石油交易所 瀏覽:78
朝鮮黑市匯率2016 瀏覽:106
公司結匯看哪個匯率 瀏覽:311
中國外匯管制什麼時候開始的 瀏覽:323
固定換固定是金融資產嗎 瀏覽:914
平安離職傭金 瀏覽:675
內黃金星啤酒廠電話 瀏覽:269
股東紅利分配 瀏覽:800
融資顧問經營范圍 瀏覽:756
2016按揭貸款計算器 瀏覽:897
香港大田環球貴金屬怎麼樣 瀏覽:323
信託去哪家銀行買 瀏覽:5
淘寶聯盟的通用傭金是怎麼回事 瀏覽:755
2013年地方融資平台資金總計 瀏覽:666
標准股份十大股東 瀏覽:288