12月17日,一家名叫Databricks的美國科技公司,宣布成功融資100億美元,公司的估值也因此達(dá)到620億美元。
新聞一出,引起了整個行業(yè)的關(guān)注。要知道,不久前的10月份,業(yè)界最受追捧的OpenAI公司,也只不過融了66億美元。這個Databricks的融資金額比OpenAI還高,是有史以來最大的風(fēng)險投資之一,憑什么?
答案很簡單,就憑——“數(shù)據(jù)和AI”。Databricks是全球數(shù)據(jù)分析和云數(shù)據(jù)平臺巨頭。近年來,他們的數(shù)據(jù)平臺產(chǎn)品吸引了大量的企業(yè)用戶,用于數(shù)據(jù)價值挖掘和輔助決策,增長勢頭強(qiáng)勁。
那么,到底什么是數(shù)據(jù)平臺呢?在AI時代,數(shù)據(jù)平臺又能發(fā)揮怎樣的作用?
今天這篇文章,小棗君就和大家做一個詳細(xì)的解讀。
█?數(shù)據(jù)平臺的發(fā)展演進(jìn)
數(shù)據(jù)平臺,顧名思義,就是用于存儲、處理和分析數(shù)據(jù)的平臺。我們常說的數(shù)據(jù)庫(Oracle、MySQL等),還有這些年來特別火的數(shù)據(jù)倉庫、數(shù)據(jù)湖,都屬于數(shù)據(jù)平臺。有了它們,我們才能更好地“玩轉(zhuǎn)”數(shù)據(jù),挖掘其中的價值。
人類的IT技術(shù)發(fā)展史,其實說白了,就是一部數(shù)據(jù)“折騰”史。發(fā)展CPU,是為了更好地處理數(shù)據(jù)。發(fā)展硬盤,是為了更好地存儲數(shù)據(jù)。發(fā)展網(wǎng)絡(luò),是為了更好地搬運數(shù)據(jù)。所有的信息通信技術(shù),都是緊密圍繞數(shù)據(jù)開展工作的。
數(shù)據(jù)平臺,是以數(shù)據(jù)為中心的平臺。它的發(fā)展歷程,同樣也和數(shù)據(jù)的演進(jìn)密切相關(guān)。
上世紀(jì)40年代至50年代,計算機(jī)剛剛誕生的早期階段,因為硬件技術(shù)不成熟,人類的數(shù)據(jù)體量較小。所以,并沒有發(fā)展出數(shù)據(jù)平臺,僅僅依靠人工進(jìn)行數(shù)據(jù)的管理。
到了60年代至70年代,隨著軟硬件技術(shù)的不斷成熟,我們終于有了數(shù)據(jù)庫系統(tǒng),并且,很快開始實現(xiàn)了商業(yè)化。尤其是到了80-90年代,商業(yè)數(shù)據(jù)庫蓬勃發(fā)展,用于各種交易型(OLTP)和分析型(OLAP)場景,為人類社會的信息化浪潮做出了很大的貢獻(xiàn)。
那一時期,很多高精尖行業(yè)(例如航空或者國防等),因為數(shù)據(jù)量越來越龐大,所以對數(shù)據(jù)平臺的要求也越來越高。大數(shù)據(jù)這個概念,也是在那個時候開始誕生和萌芽的。1997年10月,美國宇航局(NASA)研究員發(fā)表論文,首次提到了“大數(shù)據(jù)問題”。
其實,當(dāng)時的數(shù)據(jù)量在現(xiàn)在看來也不是很大。全世界加在一起的數(shù)據(jù)量,可能不會超過1 PB,還停留在TB級別。所以,傳統(tǒng)的以O(shè)racle為代表的數(shù)據(jù)倉庫,勉強(qiáng)可以搞定。
進(jìn)入21世紀(jì)后,互聯(lián)網(wǎng)的全面爆發(fā),帶來了數(shù)據(jù)量的又一次躍升。大數(shù)據(jù)時代真的到來了,傳統(tǒng)的數(shù)倉已經(jīng)hold不住了。于是,以Hadoop為代表的數(shù)據(jù)平臺應(yīng)運而生(2006年),扛起了大梁。
再后來,因為互聯(lián)網(wǎng)業(yè)務(wù)的復(fù)雜多樣性,加上數(shù)據(jù)處理的負(fù)載和實時性要求越來越高,就有了各種各樣的開源數(shù)據(jù)組件,面向不同的工作場景。
這時的數(shù)據(jù)平臺,就以基于開源的組裝式數(shù)據(jù)平臺為主流。各種數(shù)據(jù)湖、湖倉一體技術(shù),進(jìn)入了蓬勃發(fā)展的階段,勉強(qiáng)能夠滿足各行各業(yè)的場景需求。
時至今日,情況又發(fā)生了巨大的變化。正如大家所看到的,AI浪潮來了。
█ AI時代的數(shù)據(jù)平臺挑戰(zhàn)
從2023年開始,以ChatGPT為代表的AI大模型,掀起了一股席卷全球的AI浪潮,改變了人類社會的方方面面。
作為AI的三大要素之一,數(shù)據(jù)的重要性進(jìn)一步提升。我們不僅需要更多、更可靠、更準(zhǔn)確的數(shù)據(jù),還需要更強(qiáng)大的數(shù)據(jù)平臺,能夠為業(yè)務(wù)應(yīng)用(尤其是AI應(yīng)用)提供支撐。
傳統(tǒng)數(shù)據(jù)平臺,一般擁有三大典型應(yīng)用場景。
第一個是BI看板和離線報表。BI就是Business Intelligence,商業(yè)智能。通過BI看板和離線報表,可以將各種數(shù)據(jù)指標(biāo)以可視化方式展示出來,幫助企業(yè)管理層更好地了解和分析企業(yè)運營情況。
第二個是離線數(shù)據(jù)處理。這個主要是指業(yè)界常說的ETL(Extract,Transform,Load,即提取、轉(zhuǎn)換、加載)。通過數(shù)倉分層和數(shù)據(jù)預(yù)處理,對數(shù)據(jù)做“精煉”,為后面的數(shù)據(jù)分析或BI應(yīng)用做準(zhǔn)備。
第三個是實時的交互式分析。這個主要是要實現(xiàn)毫秒級的AD-Hoc(臨時性的、非計劃性的活動或決策)實時分析。
進(jìn)入AI時代,數(shù)據(jù)平臺的各方面開始發(fā)生變化。
先看看傳統(tǒng)數(shù)據(jù)工程領(lǐng)域的變化。
首先,場景開始有點延伸。有了大模型所提供的自然語言處理能力,用戶與數(shù)據(jù)平臺之間的交互,就可以變成自然語言交互。例如,企業(yè)管理者直接提問,自然語言理解生成分析SQL,數(shù)據(jù)平臺給出數(shù)據(jù)洞察的結(jié)果。
其次,數(shù)據(jù)平臺需要實現(xiàn)一體化。以前,一家企業(yè)的某個業(yè)務(wù)處理數(shù)據(jù)的方式只有一種,離線處理或者交互式處理。未來,可能同時需要多種處理方式,需要數(shù)據(jù)平臺能夠以一個平臺承載多種需求(例如離線數(shù)據(jù)處理+交互式處理),實現(xiàn)一體化。
第三,數(shù)據(jù)的規(guī)模急速擴(kuò)張,但是高效實時處理的需求是不能打折扣的。這就要求平臺實現(xiàn)批流一體、增量計算。也就是說,批處理+實時處理也要一體化。
大數(shù)據(jù)與AI的融合,也產(chǎn)生了一些新的場景。數(shù)據(jù)平臺需要支持大模型的發(fā)展。
第一個場景,是數(shù)據(jù)和AI的一體化。
在大模型開發(fā)架構(gòu)中,通常是數(shù)據(jù)團(tuán)隊和模型團(tuán)隊是分開的,各自使用各自的平臺、工具,會增加開發(fā)成本,影響開發(fā)效率。更好的解決方案,是數(shù)據(jù)平臺提供一個統(tǒng)一的接口,實現(xiàn)“DataOps+AIOps一體化”,降低運維與開發(fā)成本。
第二個場景,RAG的應(yīng)用。
RAG是Retrieval-Augmented Agenerated(檢索增強(qiáng)生成),可以理解為大模型的一個“數(shù)據(jù)輔助外掛”。當(dāng)企業(yè)搜索場景單獨采用大模型無法滿足要求時,可以基于企業(yè)數(shù)據(jù)平臺的運營數(shù)據(jù),提供一站式的高精度全文檢索+向量檢索RAG方案,實現(xiàn)更強(qiáng)大的AI搜索。
第三個場景,AI Agent智能體的應(yīng)用。
AIGC能思考,但AI Agent增加了行動的能力,現(xiàn)在成為AI的新焦點,相關(guān)的應(yīng)用數(shù)量也急劇增加。企業(yè)基于數(shù)據(jù)平臺,將業(yè)務(wù)數(shù)據(jù)與大模型融合,可以產(chǎn)生更好的生成式AI應(yīng)用,創(chuàng)造更多的AI Agent。
我們可以舉一個數(shù)據(jù)平臺支撐RAG、Agent應(yīng)用的例子。
假如你有一個咖啡店,想要發(fā)布朋友圈廣告,進(jìn)行咖啡和配套糕點的推薦。首先,你可以基于數(shù)據(jù)平臺,通過對訂單數(shù)據(jù)的大數(shù)據(jù)查詢,找到銷量最好的咖啡。然后,你可以基于數(shù)據(jù)平臺的歷史數(shù)據(jù),訓(xùn)練一個模型(這里應(yīng)該小模型就夠了),找到推薦搭配的糕點。
接下來,基于數(shù)據(jù)平臺知識庫和大模型,采用RAG方案,找到一個最合適的廣告詞。大模型再基于廣告詞和咖啡糕點的圖片,生成一個廣告文案。
所有上述過程,都可以配置到Agent里面。以后,只需要一個指令,就能夠按步驟快速完成這項工作。是不是很高效?
AI時代的數(shù)據(jù)平臺,除了支持AI發(fā)展之外,也要讓AI反向賦能平臺。例如,將AI能力應(yīng)用于數(shù)據(jù)平臺的資源管理與運維管理,將大幅提升工作效率。
簡單來說,AI時代的大模型應(yīng)用開發(fā),核心要素就是算卡(算力)、大模型(算法)和數(shù)據(jù)。在這種應(yīng)用里,最好的架構(gòu),是大模型直接和數(shù)據(jù)聯(lián)動。以數(shù)據(jù)為核心,數(shù)據(jù)平臺足夠簡單、足夠融合、足夠智能,讓大模型以最高效的方式完成訓(xùn)練和推理。
█ TCHouse-X,AI時代的數(shù)據(jù)平臺創(chuàng)新解決方案
那么,數(shù)據(jù)平臺該如何重構(gòu)設(shè)計,才能滿足上面提到的場景和能力需求呢?
最近,騰訊云給出了他們的解決方案——一站式數(shù)據(jù)智能平臺TCHouse-X。
TCHouse-X的核心設(shè)計理念,是一體化、智能化、高性能以及云原生。
●?一體化
前面反復(fù)提到了一體化。TCHouse-X在架構(gòu)設(shè)計層面,就貫徹了一體化的思想。
它通過云原生多集群共享數(shù)據(jù)及元數(shù)據(jù)管理,打破了傳統(tǒng)數(shù)據(jù)平臺在離線計算、在線計算和AI開發(fā)之間的壁壘。用戶可以基于同一份數(shù)據(jù),運行在線分析、離線處理、數(shù)據(jù)湖探索和機(jī)器學(xué)習(xí)等多種業(yè)務(wù)負(fù)載,無需在不同的系統(tǒng)間切換和數(shù)據(jù)的拷貝搬遷,實現(xiàn)AI、BI和Data在一個平臺上開發(fā)和共建。
對于用戶來說,數(shù)據(jù)平臺的極致簡化,不僅方便了產(chǎn)品的開發(fā),改善了體驗,也大大降低了產(chǎn)品運維的難度和成本。這是做減法帶來的優(yōu)勢。
● 智能化
智能化,是指TCHouse-X獲得了來自AI的賦能,借助AI進(jìn)行技術(shù)優(yōu)化和迭代。
TCHouse-X能夠通過智能化的系統(tǒng)交互、資源管理與運維管理功能,實現(xiàn)運維“自動駕駛”,顯著提升易用性與運維效率。
以資源管理為例,TCHouse-X具備AI智能調(diào)度系統(tǒng),能夠?qū)崟r感知負(fù)載并智能規(guī)劃資源,從而提高計算資源的利用率。
TCHouse-X還支持前面提到的自然語言交互。用戶可通過自然語言描述,快速查詢分析數(shù)據(jù),無需SQL相關(guān)的專業(yè)培訓(xùn)與學(xué)習(xí)。
● 高性能
一款優(yōu)秀的數(shù)據(jù)平臺,當(dāng)然在性能上不能拉垮。
TCHouse-X基于騰訊云自研核心引擎技術(shù)(數(shù)據(jù)平臺三大件,包括優(yōu)化器、計算引擎、存儲引擎,騰訊云都是從零到一進(jìn)行自研),在計算、存儲、網(wǎng)絡(luò)等多維度優(yōu)化,能夠為用戶提供全鏈路極致性能。在效率層面,TCHouse-X能夠支持實時加工處理源頭數(shù)據(jù),并且具備毫秒級的在線分析能力。
同時,TCHouse-X支持多種彈性策略,無論是應(yīng)對突發(fā)流量高峰還是處理大規(guī)模查詢,都能有效幫助企業(yè)實現(xiàn)資源的靈活配置,降低成本并提高效率。
● 云原生
云原生,是TCHouse-X的核心基因。它帶來的優(yōu)勢,是可以提供極致的資源彈性?;谠圃?,可以實現(xiàn)存算分離,可以對計算和存儲進(jìn)行彈性配置,增加靈活性。這也是前面一體化開放的前提條件。
彈性可以體現(xiàn)在多個場景。例如分時段(白天/夜晚)的資源分配,資源使用量的智能預(yù)測,突發(fā)負(fù)載的智能彈性伸縮,等等??梢钥闯?,設(shè)計理念(云原生和智能化)之間,也是有相互關(guān)聯(lián)的。
█ TCHouse-X的實際落地表現(xiàn)
我們可以看出,TCHouse-X是騰訊云精心打造的一款大數(shù)據(jù)數(shù)倉產(chǎn)品。
它大幅提升了平臺的性能,簡化了傳統(tǒng)數(shù)據(jù)平臺的復(fù)雜架構(gòu),并引入了智能化系統(tǒng)交互、資源管理與運維管理能力,能夠為大模型時代的應(yīng)用創(chuàng)新提供一站式數(shù)據(jù)處理能力。
根據(jù)測算,TChouse-X的在線查詢性能優(yōu)于市場同類產(chǎn)品50%,而離線批處理的綜合性價比則提升了10倍之多。在計算資源層面,采用TCHouse-X,企業(yè)計算資源成本最高也能降低50%。
目前,TCHouse-X已在騰訊內(nèi)部多個業(yè)務(wù)線以及多個外部企業(yè)客戶場景中得到應(yīng)用,具體包括大模型AIGC應(yīng)用、車聯(lián)網(wǎng)數(shù)據(jù)平臺、安全廠商、CRM平臺、跨境電商企業(yè)、物流平臺和手游公司等。
在實際應(yīng)用中,TCHouse-X充分展示了自身的強(qiáng)大性能和成本效益。特別是在大規(guī)模數(shù)據(jù)處理和實時分析方面,表現(xiàn)非常出色。
以騰訊會議應(yīng)用為例。采用TCHouse-X后,該應(yīng)用實現(xiàn)了顯著的性能提升和存儲優(yōu)化。
在進(jìn)行會議質(zhì)量分析和日志分析時,TCHouse-X相比于原來的Presto/Trino查詢性能提升了5到10倍,日均查詢數(shù)約40萬,顯示了其在高并發(fā)查詢處理方面的強(qiáng)大能力。同時,存儲從原來的4份減少到1份,大幅降低了存儲成本。與原Spark相比,性能提升了2倍,進(jìn)一步證明了TCHouse-X在處理復(fù)雜查詢時的高效率。
█ 結(jié)語
TCHouse-X的發(fā)布,是騰訊云在大數(shù)據(jù)領(lǐng)域長期深耕和積累的成果。
很多人可能不知道,作為騰訊云基于海量業(yè)務(wù)打造的世界領(lǐng)先級大數(shù)據(jù)平臺,騰訊云大數(shù)據(jù)目前的算力規(guī)模已經(jīng)超過千萬核,是全球最大規(guī)模的大數(shù)據(jù)平臺之一。平臺每天實時計算量數(shù)百萬億次,每天運行容器數(shù)數(shù)億個,每天計算數(shù)據(jù)量數(shù)百PB,量級位居國內(nèi)第一。
TCHouse-X是企業(yè)打造數(shù)據(jù)基座的一個神器。隨著AI浪潮的愈演愈烈,相信越來越多的行業(yè)用戶會開始采用TCHouse-X,享受它帶來的效率提升和成本節(jié)約。AI數(shù)智時代的數(shù)據(jù)價值挖掘,將進(jìn)入一個全新的階段!