首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 云計(jì)算 >> 正文

Cloudera Lakehouse Optimizer助力企業(yè)輕松交付高性能Iceberg表

2025年2月24日 14:57  CCTIME飛象網(wǎng)  作 者:Bill Zhang

Cloudera數(shù)據(jù)倉庫產(chǎn)品管理高級總監(jiān)Bill Zhang

IDC調(diào)研中國數(shù)據(jù)顯示,在落地GenAI應(yīng)用時,68%的企業(yè)認(rèn)為需要梳理內(nèi)部數(shù)據(jù)資產(chǎn),66%的企業(yè)希望搭建數(shù)據(jù)湖等數(shù)據(jù)底座。開放式數(shù)據(jù)湖倉一體架構(gòu)正迅速成為海量數(shù)據(jù)進(jìn)行統(tǒng)一、多功能分析的標(biāo)準(zhǔn)架構(gòu)。這種架構(gòu)既融合了數(shù)據(jù)湖的靈活性和可擴(kuò)展性,又具備數(shù)據(jù)倉庫的數(shù)據(jù)分析、治理和管理功能,為企業(yè)提供了強(qiáng)大的數(shù)據(jù)處理能力。開放表格式是這一架構(gòu)的關(guān)鍵組成部分,它直接在數(shù)據(jù)湖存儲上提供了大量傳統(tǒng)數(shù)據(jù)倉庫的功能。目前,Apache Iceberg正迅速成為廠商和客戶的標(biāo)準(zhǔn)格式。

盡管Iceberg的諸多特性可大幅降低實(shí)現(xiàn)高性能數(shù)據(jù)視圖所需的工作量,但這些特性也帶來了額外的開銷,并且需要手動執(zhí)行作業(yè)以優(yōu)化性能和成本。為進(jìn)一步簡化數(shù)據(jù)湖倉一體架構(gòu)的管理,Cloudera推出了Cloudera Lakehouse Optimizer。該服務(wù)可智能化自動處理Iceberg表,使得許多維護(hù)作業(yè)能夠在后臺自動運(yùn)行。下面,我們將詳細(xì)介紹Cloudera Lakehouse Optimizer的功能、優(yōu)勢以及未來的發(fā)展方向。

Cloudera Lakehouse Optimizer的功能

Cloudera Lakehouse Optimizer根據(jù)用戶配置和Iceberg表統(tǒng)計(jì)數(shù)據(jù),自動運(yùn)行基于策略的Iceberg表優(yōu)化任務(wù)。自動優(yōu)化任務(wù)包括:

壓縮(Compaction):企業(yè)通常會通過微批處理(MicroBatching)或流式攝取(StreamingIngestion)等方式接收大量小文件,而讀取這些小文件會嚴(yán)重影響查詢性能。壓縮是將小文件合并為大文件以提升性能的過程。Cloudera Lakehouse Optimizer能夠自主判斷自動壓縮數(shù)據(jù)文件的最佳時機(jī),確保用戶的表始終保持最佳性能。該服務(wù)還會根據(jù)使用模式優(yōu)先優(yōu)化高價值的表,確保每次優(yōu)化都能帶來實(shí)際的投資回報(bào)。

表清理(Table Cleanup):隨著表的增長,往往會積累大量不再使用的數(shù)據(jù)文件、清單文件和快照。用戶通常需要執(zhí)行表維護(hù)功能,例如清除過期快照、移除舊元數(shù)據(jù)文件以及清理孤立文件,以優(yōu)化存儲利用率并提升性能。Cloudera Lakehouse Optimizer能夠自主判斷維護(hù)任務(wù)的最佳時機(jī),確保表的存儲利用率最大化。

除了優(yōu)化措施和基于策略的控制措施,Cloudera Lakehouse Optimizer還提供了優(yōu)化任務(wù)的可觀測性,以幫助數(shù)據(jù)團(tuán)隊(duì)清晰了解策略對表和存儲健康狀況及性能的影響。

Cloudera Lakehouse Optimizer的優(yōu)勢

Cloudera Lakehouse Optimizer為使用Iceberg表的企業(yè)帶來了諸多優(yōu)勢:

·通過優(yōu)化存儲占用空間和減少查詢運(yùn)行時間,降低總體擁有成本(TCO)。

·通過減少查詢中需要讀取的文件數(shù)量,提供高性能的數(shù)據(jù)視圖。

·通過自動執(zhí)行一些繁瑣的湖倉維護(hù)任務(wù),減少數(shù)據(jù)管理工作和開銷。

Cloudera內(nèi)部基準(zhǔn)測試表明,使用Cloudera Lakehouse Optimizer維護(hù)Iceberg表可顯著節(jié)約成本。實(shí)際效果因使用場景不同可能有所差異。

未來方向

對于想要轉(zhuǎn)向開放式數(shù)據(jù)湖倉一體架構(gòu)的企業(yè),Cloudera Lakehouse Optimizer當(dāng)前推出的功能為他們解決了兩個重要難題。Cloudera的愿景是讓提供高性能的數(shù)據(jù)視圖變得更加容易,而這僅僅是實(shí)現(xiàn)這一愿景所邁出的第一步。未來,我們計(jì)劃增加對更多優(yōu)化功能的支持,包括通過分區(qū)重組解決影響查詢性能的數(shù)據(jù)分布問題和查詢優(yōu)化。

我們的目標(biāo)是確保Cloudera成為管理和訪問Iceberg表的最佳平臺之一,同時讓企業(yè)更輕松地采用開放式數(shù)據(jù)湖倉一體架構(gòu)。

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
低空經(jīng)濟(jì)2025:助力中國經(jīng)濟(jì)騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像