在线咨询 x

電話

028-86086820

 您的当前位置: 首页  >> 资讯动态 >> 腾讯新闻 

騰訊雲原生數據湖:讓「無形」的大數據,變「有形」的生產力

發布時間:2021-05-20

我們知道,隨著雲計算、大數據、人工智慧、物聯網等新技術在各行各業更加廣泛的普及與應用,在催生越來越多數據量產生的同時,也讓數據的管理和價值挖掘變得愈加複雜和困難。

一方面,數據在不斷變大,根據IDC的預測,全球數據總量預計到2025年更將達到175ZB;另一方面,數據類型的多樣化,諸如文本、圖片、音頻和視頻等非結構化數據的大量產生,很多企業每年的數據增長量更是超過60%,部分網際網路企業的數據量甚至呈指數式的增長。

但是,過去由於缺乏有效的數據處理機制,這些大量的數據,分散於各處,難以聯通,難以匯聚,因此如何最大化釋放大數據帶來的紅利價值,這也正是今天數據湖被高度重視的關鍵原因。

在此背景下,5月13日,騰訊雲首次對外展示完整雲端數據湖產品圖譜,並推出兩款「開箱即用」數據湖產品——數據湖計算服務DLC和數據湖構建DLF,希望助力各行各業解決多元化數據分析場景的新需求,更好地激發大數據在企業數位化升級過程中的價值,真正讓「無形」的大數據,變成「有形」的生產力。

雲原生數據湖強勢崛起

在剛剛過去的2020年,「不確定性」成爲企業和組織不得不關注的重要課題。不僅是突如其來的疫情對經濟,社會的生產、 生活方式帶來的史無前例的衝擊,更爲關鍵的是,過去十多年來,衆多的企業也在新舊商業形態的劇變、商業模式的顛覆以及各行業的重構中「躑躅前行」。

在此「新常態」下,企業唯有更加快速地洞察客戶的需求並迅速調整自身的產品及服務模式,並通過深挖數據帶來的紅利價值,向「雲原生企業」甚至「數字原生企業」轉型,才能更加從容地面對各種複雜形勢下的挑戰,而數據湖正是在這樣的背景下「應運而生」的。

騰訊雲大數據產品中心副總經理雷小平看來,儘管數據湖的概念已經出現十年左右,但過去的數據湖僅僅只是解決了大數據「存」的問題,在「用」的維度上並沒有產生更大的價值,而隨著技術的創新和應用場景的拓展,以雲原生數據湖爲代表的新一代數據技術架構正受到業界越來越多的關注,而雲也成爲了數據湖的最佳實踐場所。

一是,以雲計算爲中心,向雲原生轉型成爲新趨勢。數據顯示,預計到2021年底,雲將承載80%的應用開發和部署。與此同時,今天以Kubernetes爲代表的容器技術已經成爲了雲應用的「作業系統」,越來越多的應用運行在容器的基礎之上:從無狀態的 Web 應用,到交易類應用,再到數據化和智能化應用,在此過程中,越來越多的企業也正基於雲原生實現了全面的上雲。

二是,以數據驅動業務,實現數智化轉型變成新方向。據知名諮詢機構統計,到2025年全球數據總量將超過160ZB,全球數據總量的20%將成爲關鍵數據,全球數據的分析總量也將會增至5.2ZB。因此,如何把大數據所帶來的效應發揮出來,實現更加精細化的管理和決策,從而有效的提升質量、降低成本、優化服務變得越來越關鍵。

三是,可組合式數據架構,讓雲原生數據湖落地更具確定性。對於企業來說,不僅越來越多的業務向以云為中心的基礎架構轉移,而且對於數據洞察敏捷度的要求也越來越高。在這種情況之下,企業迫切需要可以利用多個數據源、使用不同的大數據分析技術,快速構建靈活友好的數據架構,解決多元化分析場景的數據需求,而可組合式數據架構的出現,更推動了雲原生數據湖的落地,真正讓數據分析變得更敏捷、更多元、更簡單。

「相比過去的數據湖,雲原生數據湖的優勢主要體現在能夠以極低的價格共享存儲服務;計算資源能夠按需擴容,按量付費;同時隨著數據湖全鏈路解決方案的不斷完善和增強,也在打破數據孤島、實現多元化數據分析等方面具有獨特優勢。」雷小平說。

也正是洞察到這些變化,騰訊雲發布了雲原生智能數據湖產品圖譜,爲企業打造了一個具備端到端的雲原生數據湖解決方案,從存儲、計算到智能的數據分析,再到偏向業務場景的各種數據應用,通過「從下到上」的把這些能力聚合在一起,同時結合數據湖的能力去解決客戶的具體問題,讓企業能夠快速搭建並運用數據湖的技術架構。

毫無疑問,由數據價值驅動的數字經濟正成爲推動社會前進的主要模式,由各種創新技術驅動的數位化轉型也正成爲全球變革的核心,而雲原生數據湖的出現,真正爲各行各業挖掘數據價值,釋放數據紅利,完成創新與變革打造了新一代數據技術架構的「底座」。

構築全方位數據湖服務

據了解,騰訊雲此次發布的雲原生智能數據湖產品圖譜,包括數據湖存儲、數據湖算力調度、數據湖大數據分析、數據湖AI能力、以及數據湖應用和雲上基礎服務六個層面,可爲企業提供一體化的全方位數據湖服務,具體來看:

首先,在數據湖存儲和算力方面,騰訊雲原生數據湖存儲以對象存儲COS服務爲核心,理論上可以存儲任意規模的異構數據,具有高可靠性和高持久性,同時也支持將其他雲端數據設施作爲數據湖的存儲服務;而在數據湖算力調度方面,基於騰訊雲彈性容器服務EKS,開放的容器化的分析架構能夠讓數據分析功能可組合性更強,擴展性更強,資源利用率更高。

其中,騰訊雲對象存儲COS基於新一代存儲引擎YottaStore打造,不僅具有高可用、高性能和低成本等優勢,且在存儲可靠性、開放兼容和數據安全方面也爲海量數據的存儲和管理提供了更強大的支持。此外,騰訊雲對象存儲COS還進一步通過「三級加速器」,提供存儲端元數據、近計算端數據緩存以及AZ級全快閃記憶體硬體加速能力,可以滿足用戶低成本、高性能、流批一體地挖掘數據資產價值的需求。

而在數據湖算力調度領域,騰訊雲彈性容器服務EKS,具備存算分離、緩存加速、彈性計算能力,既能幫助企業充分利用雲上資源的彈性能力,極大減少集羣空閒時期的成本浪費,也能快速、安全的提供多樣的算力資源。

對此,騰訊雲容器產品總經理鄒輝表示,彈性容器服務EKS不僅經歷了三次大的技術架構重構,同時也在騰訊雲幾十萬、幾百萬台的物理機上做了部署,實踐驗證了其高可用和穩定性,它既可以提供一個運維簡單、兼容原生Kubernetes的Serverless容器平台,也能更快更彈性更安全且無需對集羣管理實現管理,同時更具備跨可用區的容災,容器沙箱及熱遷移等高級功能,真正實現了極致的資源使用靈活性。

其次,在數據湖分析方面,騰訊雲原生數據湖同樣既提供半託管的泛Hadoop服務,滿足用戶自定義需求,也提供全託管的數據服務,便於用戶獲取海量數據的洞察力。同時,用戶還可利用騰訊雲提供的數據協作工具對計算服務進行編排和調用,大幅度提升企業數據的便捷性和敏捷度。

值得一提的是,本次騰訊雲原生數據湖就推出兩款全新的「開箱即用」數據湖產品——數據湖計算服務(Data Lake Compute,DLC)和數據湖構建DLF(Data Lake Formation,DLF)。其中,數據湖計算服務DLC服務採用無伺服器架構(Serverless)設計,用戶無需關注底層架構或維護計算資源,使用標準SQL即可完成對象存儲服務(COS)及其他雲端數據設施的聯合分析計算。藉助該服務,用戶無需進行傳統的數據分層建模,大幅縮減了海量數據分析的準備時間,有效提升了企業數據敏捷度。

不僅如此,騰訊雲數據湖構建DLF則提供了數據湖的快速構建,以及與湖上元數據管理服務,能夠幫助用戶快速高效的構建企業數據湖技術架構,包括統一元數據管理、多源數據入湖、任務編排、權限管理等數據湖構建工具,藉助數據湖構建,用戶可以極大的提高數據入湖準備的效率,方便的管理散落各處的孤島數據。

數據顯示,基於這兩款數據湖產品,相比於本地自建大數據集羣,數據湖構建時間減少了60%,數據分析計算性能提升35.5%,雲端數據湖架構投入使用後可使存算數據量增長75%,配合其他大數據服務,在業務峯值期可以節約30%的硬體資源,以及一半的大數據工程師和運維工程師。

最後,在數據湖AI+應用方面,騰訊雲也推出基於數據湖的數據應用服務,如企業畫像、聯邦計算、商業智能分析等。同時,騰訊雲數據湖更包含了豐富的AI服務,能夠爲圖像處理、音頻處理、自然語言處理、視頻處理等提供有力的數據支撐。

騰訊雲AI應用產品中心總經理王磊介紹,雲原生數據湖爲AI的應用提供了統一的數據架構,在數據收集、標註、訓練、推理等領域都能夠發揮更大的作用,而騰訊雲憑藉全球領先的技術和創新方案,打造了領先的數據湖與AI融合平台,爲更多的應用場景提供了智能化的能力。

以騰訊雲內容安全智能服務爲例,該服務基於雲原生數據湖架構,以AI智能審核能力爲核心,從接口輸入、輔助判斷、模型識別、客戶策略處理以及人工審核與平台六大維度,爲用戶提供了完整的內容安全解決方案,讓客戶一次調用即可完成所有的內容審核工作。在此基礎上,騰訊雲也不斷通過數據湖結合AI的能力賦能客戶,在科技戰「疫」、OCR識別、智能票財稅等應用場景領域發揮了更多的價值和作用。

由此可見,騰訊云云原生智能數據湖具備更高的數據敏捷度、更優的數據性價比、更強的數據智能化能力,可以更好地激發數據業務價值。更爲關鍵的是,它天然具備雲服務的衆多優勢,包括多租戶的權限管控、存儲計算資源彈性伸縮、底層資源免運維、雲端服務高可用高可靠、僅需按照使用量付費等特點,這不僅讓騰訊雲打造出了強大的雲原生數據湖的競爭力,同時也成爲了一家走在數據湖落地最前沿的公司,更將雲原生數據湖的技術創新提升到了一個全新的高度。

領先背後的沉澱與釋放

回頭來看,騰訊雲在雲原生數據湖領域之所以能夠實現市場領先,並不是偶然的,而是其一直以來在數據湖領域的長期實踐和沉澱之後的一次全方位能力釋放,可以從三個維度來做觀察:

第一,騰訊作爲全球最大的網際網路公司之一,其數據規模、數據複雜度、數據處理難度、數據價值挖掘在業界無出其右,這就讓騰訊雲原生數據湖的解決方案不僅經歷了長期的「殘酷歷練」,更通過公司的業務場景的「實踐驗證」了其超強的可用性。

雷小平告訴我,以騰訊新聞爲例,騰訊新聞擁有千億級的文章數量,每篇文章各環節數據維度達到幾百個,多維度的數據主題導致各個業務環節的數據量線性膨脹,也這給數據分析帶了極大的挑戰。爲此,基於騰訊雲原生數據湖技術架構,在數據採集、數據存儲、數據分析的全數據鏈條上提供了高可靠高可用的彈性數據能力。目前已接入全量文章的索引數據,文章索引達日均30-50億/100G+ ,支持准實時寫入更新,業務數據鏈路延遲提升至分鐘級別,使得算力資源節約超過50%,綜合運行成本降低了30%,大數據運維工程師的工作量提升了100%。

「騰訊新聞的數據應用中,既有偏離線的,也有偏實時的,更有偏批量和小部分數據查詢的,場景十分的多樣化,而騰訊雲基於多樣化的應用場景,不斷對雲原生數據湖方案進行孵化和打磨,最終讓騰訊雲原生數據湖應勢而生。」他說。

第二,騰訊雲長期的的投入和沉澱,又打造出了雲原生數據湖領域最爲完善的產品矩陣,不僅大大降低數據存儲和分析的成本,更大幅度提升數據分析的敏捷性,真正加速和推動了雲原生數據湖的落地。

確實如此,大數據的實時、感知和預測等特點確實可以幫助很多企業降低成本,縮短生產周期,提升了效率。但對大部分企業而言,過去通過傳統的數據湖產品,僅僅只是解決了數據收集和存儲的能力,但對數據的分析,以及在數據建模工具的利用等方面進展並不順利,而騰訊雲原生數據湖的端到端和全鏈路的獨特能力,則徹底完成了數據從「存管用」整個全生命周期的管理。

數據也顯示,騰訊雲數據湖體系已服務衆多內外部客戶,其整體算力彈性資源池已達500萬核,存儲數據超過100PB,每日分析任務數達1500萬,每日實時計算次數超過萬億,能支持上億維度的數據訓練。除此之外,在應用方面,騰訊雲正在積極推動數據湖在政務、工業、零售等領域的大規模落地。

第三,騰訊雲在雲原生數據湖領域的優勢,還建立在對技術的不斷創新與研發上,除了目前騰訊云云原生智能數據湖產品圖譜中涵蓋的六大能力之外,騰訊雲還會不斷的研發更多的數據湖產品,以完善和優化雲原生智能數據湖矩陣。

雷小平最後表示,從存儲的角度,客戶目前最關注的問題是,如何把數據快速輸送給大數據引擎,讓引擎高效率工作,同時還能夠更低成本的獲取存儲資源,是未來需要進一步解決的問題;從計算的角度,如何讓彈性計算發揮更大的能力,也需要做更多的優化工作;從用戶體驗看,也需要可以跨越之前數倉建模帶來的種種約束,針對業務需求去做聯合分析和查詢;從技術演進看,騰訊雲未來也會更多的依託於開源做技術創新,並把這些創新貢獻給社區,目前騰訊雲就基於Iceberg爲代表的開源數據湖技術,不斷優化和完善新一代的雲原生數據湖系統,最終希望進一步推動雲原生數據湖的發展。

總的來說,在數智化的新時代,騰訊雲正通過端到端、全鏈路的雲原生數據湖賦能客戶,這不僅加速了數據湖的落地進程,也讓企業基於大數據實現業務創新更加「普惠化」,在最大化釋放大數據新紅利的同時,也真正讓「無形」的大數據,變爲「有形」的生產力,相信這對加速企業向「雲原生企業」轉型,以及促進中國數字經濟高質量發展,都將起到更多的引領和推動作用。

文章來源://www.sohu.com/a/467487724_351410?spm=smpc.sub-channel.fd-news.380.1621504531610lrPlvRH


免責聲明:此文爲轉載文章,新聞文字、圖片來源於網際網路,如有侵犯,請及時通知我們,本站將在第一時間及時刪除。轉載目的在於傳遞更多信息及用於網絡分享,並不代表本站贊同其觀點和對其真實性負責,也不構成其他建議。

< <上一篇:腾讯发布一季度财报:总营收1353亿元,净利润同比上涨22至331.2亿元

下一篇:微信迎来更新,三大功能获网友大赞:张小龙开窍了> >

丨   首頁   丨   關於盤古   丨   業務介紹   丨   營銷案例   丨   新聞資訊   丨   聯繫我們   丨   招賢納士   丨

咨询电话:028-86086820      投诉电话:028-86086814
公司地址:
成都市東御街19號茂業天地44F                       成都市人民东路6号SAC东原中心35F
重慶市九龍坡區謝家灣正街49號華潤大廈34F                 海南省海口市美蘭區國興大道11號國瑞大廈B座西塔13F
山西省太原市萬柏林區晉祠路一段8號中海國際中心B座19F      甘肅省蘭州市城關區天水路北口萬達中心20F

盤古廣告服務中心
(微信服務號)
盤古廣告
(微信訂閱號)
成都盤古廣告
(微博)

Copyright©2019 成都盘古纵横集团有限公司 版权所有 蜀ICP備19031371號