在數(shù)據(jù)規(guī)模爆炸式增長的今天,復雜的業(yè)務場景對數(shù)據(jù)的使用提出了更高的要求,數(shù)據(jù)需具備良好的容錯能力,集群服務應擁有健壯的穩(wěn)定性。Hadoop HDFS自誕生至今,一直都是大數(shù)據(jù)領域事實上的分布式存儲基座,已經(jīng)得到眾多企業(yè)支持,包括Cloudera、Uber、騰訊、美團、京東等。據(jù)了解,不少生產(chǎn)環(huán)境集群節(jié)點達到萬臺以上,可以輕松應對多場景業(yè)務類型的訪問。
任何事物除了關注其本身特性,還有必要了解其發(fā)展歷史。從發(fā)展歷史中了解其內(nèi)在邏輯,對于更好地理解事物很有裨益。作為一款非常受歡迎的分布式存儲產(chǎn)品,HDFS和分布式及文件系統(tǒng)很有淵源。分布式文件系統(tǒng)的設計和實現(xiàn)包含內(nèi)容復雜,為了推動行業(yè)向前發(fā)展,幫助從業(yè)人員和熱愛分布式技術的開發(fā)者對分布式文件系統(tǒng)有更深層次的了解,機械工業(yè)出版社于2023年8月,邀請祝江華 董西成 賀小橋?陳昱康四位大數(shù)據(jù)專家為大家?guī)淼?strong>專題分享會,分享會上四位專家圍繞技術熱點和行業(yè)痛點展開分享,干貨滿滿,獲得了廣大參會開發(fā)者的一致好評。
在近期的一系列文章中,小編將為大家復盤四位專家的精彩觀點和行業(yè)洞見,沒能參會的小伙伴們,不要錯過??!
PART1:嘉賓介紹
祝江華,大數(shù)據(jù)技術專家《Hadoop HDFS深度剖析與實踐》作者
董西成,快手數(shù)據(jù)平臺產(chǎn)品&研發(fā)負責人,《Hadoop技術內(nèi)幕》作者
賀小橋,Apache member,Apache Hadoop PMC member
陳昱康,B站離線平臺負責人
PART2:精彩回顧
話題一、《Hadoop HDFS深度剖析與實踐》將解決哪些行業(yè)痛點?
祝江華:當前,行業(yè)在發(fā)展過程中存在一些痛點,我認為有三部分是非常重要。
第一部分是:近幾年,大數(shù)據(jù)技術發(fā)展迅速,尤其是計算方向先后出現(xiàn)了很多優(yōu)秀的產(chǎn)品與技術迭代,比如流式處理,強悍的分析引擎等等。當下大數(shù)據(jù),整個鏈路其實是離不開存儲這一塊,因此也需要進一步推動存儲技術的進步。這樣對整個行業(yè)產(chǎn)業(yè)都是很有利處的。
第二部分是:現(xiàn)在無論是大公司還是小公司,從數(shù)倉平臺到底層的基礎設施,大數(shù)據(jù)平臺的建設都普遍現(xiàn)象。雖然現(xiàn)在搭建大數(shù)據(jù)平臺更加方便了,但是想要建設一個非常成功的大數(shù)據(jù)平臺并非易事。這其中要注意的內(nèi)容非常多,尤其是存儲板塊,因此,需要我們本著促進行業(yè)發(fā)展的目的,相互交流,彼此碰撞,才能使整個行業(yè)得到良好的發(fā)展。
第三部分是:HDFS依然是行業(yè)內(nèi)建設大數(shù)據(jù)過程中采用的主流基礎設施,目前仍然有很多開發(fā)者對這一產(chǎn)品所包含的理念和技術存在理解不到位。
既然我們提到了當前行業(yè)內(nèi)存在的痛點,所以。我在這里想聊一下《Hadoop HDFS深度剖析與實踐》這本書,能為行業(yè)能給我?guī)硎裁矗?/p>
第一方面:這本書體系化的系統(tǒng)介紹了相關知識點,希望能夠促進存儲技術的發(fā),特別是在基礎層面,從而促進行業(yè)的發(fā)展。
第二方面:對一些需要幫助的開發(fā)者,特別是對分布式存儲,云計算以及分布式技術感興趣的開發(fā)者提供一些力所能及的幫助。
第三方面:分享一些個人心得給同行。
話題二:對當下的大數(shù)據(jù)的熱點存儲技術探討
祝江華:當前在整個大數(shù)據(jù)領域,可以說存儲是不得不存在的方向?,F(xiàn)在我們大數(shù)據(jù)業(yè)界對存儲的定位和認識是怎樣的?當下對于HDFS在行業(yè)內(nèi)的一個地位是怎樣的?這兩個問題,相信董西城老師會有更獨到的理解,供我們大家學習一下。
董西成:我簡單談一下我對存儲的理解!存儲技術,我覺得是大數(shù)據(jù)領域比較難的技術!包括它對技術的要求,對可靠性,穩(wěn)定性等方面的要求還是很高的。
存儲技術涉及的范圍也是很廣的,包括結(jié)構化,非結(jié)構化存儲。這是非常重要,比如說結(jié)構化存儲,大家都熟悉的關系型數(shù)據(jù)庫MySQL,Oracle等等;非結(jié)構化數(shù)據(jù),包括,比如說我們今天重點提到的文件存儲HDFS。整個存儲這個領域。所以整個存儲這個領域涉及的范圍,非常之廣。并且針對不同的場景,現(xiàn)在存儲體系也是有所差異。這是從存儲分類上來看。
從另外一個視角,從穩(wěn)定性,成本性能方面也有不同的劃分方式,但整體上HDFS目前仍然是在大數(shù)據(jù)領域非常重要的一個系統(tǒng)。包括就是比如說在快手、字節(jié)、美團等等相當多的公司,尤其是內(nèi)部,這種自建的整個大數(shù)據(jù)體系,HDFS仍然是最主流的存儲系統(tǒng)之一。
所以我覺得江華寫的這本《Hadoop HDFS深度剖析與實踐》其實也是能夠切中我們對當下熱點以及主流方向的痛點和需求。
祝江華:業(yè)界對存儲的定位和認識是怎樣的?當下對于HDFS在行業(yè)內(nèi)的一個地位是怎樣的?請喬總分享一些自己的觀點。
賀小喬:因為我是工作的主要方向在離線存儲方向,我重點就是聊一聊我對離線存儲的理解。在我看來,不管是從大數(shù)據(jù)生態(tài)來看,還是說從其他的體系來看的話,存儲其實都是最重要,也是最基礎的。從之前傳統(tǒng)的素材業(yè)務,到最近除了傳統(tǒng)的素材業(yè)務之外,還有一些機器學習,類似這種新興的業(yè)務的研究,對存儲的需求可能提出了一些更高的要求。比如說。這個需要有無限接近的資源供給,高吞吐低時延,還有可靠性或者是低成本等等,這些都有一些更高的要求。
HDFS雖然不能特別完美的能解決方方面面的問題,但是從我的實踐經(jīng)驗來看,HDFS在整個大數(shù)據(jù)領域里面,其實還是一個比較關鍵或者是核心的方向,主要我理解還是從幾個方面展開:第一,因為Hadoop的生態(tài)相對還算比較成熟,而且這個包括周邊的各種配套的工具體系,經(jīng)過多年的大規(guī)模生產(chǎn)實踐驗證,其實已經(jīng)相當成熟了。第二,我認為從很多生態(tài)來看,HDFS還是在持續(xù)的發(fā)展和演進過程中。所以整體來看,HDFS還是在處在一個不錯的方向上。
祝江華:在當下大數(shù)據(jù)平臺建設和使用過程中,對于數(shù)據(jù)的管理非常重要,數(shù)據(jù)種類很多,例如json,log文件,表數(shù)據(jù)等,本質(zhì)上他們都是規(guī)則不一,類型不固定的文件,一款優(yōu)秀的分布式文件存儲系統(tǒng),主要的核心模塊和架構應該是怎樣的?
陳昱康:對于這一點,在《Hadoop HDFS深度剖析與實踐》有很多詳細的介紹。我簡單講一下我自己的理解。
首先可以肯定元數(shù)據(jù)管理模塊其實是非常重要的,因為元數(shù)據(jù)是維護了整個文件的數(shù)據(jù)信息,我們需要支持一個高效的數(shù)據(jù)查詢和索引的能力。
另外我認為比較重要是對數(shù)據(jù)的存儲引擎,HDFS作為一款支持高吞吐,低延遲的數(shù)據(jù)寫入和讀取存儲引擎,對底層的數(shù)據(jù)的一些編碼,包括Check的一些保證,都做的非常不錯。
第三點是涉及生產(chǎn)環(huán)境,我們需要有一個比較好的訪問控制,包括安全性,多租戶等這些的能力,另外還包括例如權限等的一些的能力,進一步的話對數(shù)據(jù)上面還會做一些透明的加密,這一塊其實在HDFS上面也有很好的保障。
第四點我想談一下,HDFS系統(tǒng)的擴展能力,它能夠支持比較好的動態(tài)集群擴展的能力。包括性能和容量等方面,來適應不斷增長的數(shù)據(jù)需求,我們現(xiàn)在生產(chǎn)的數(shù)據(jù)量級更高,那需要有非常強的擴展能力才可以承擔一個大規(guī)模數(shù)據(jù)的存儲,同時也需要搭配很好的數(shù)據(jù)遷移,數(shù)據(jù)清理以及利用率等。
董西成:對于分布式存儲系統(tǒng),類型很多,它們的架構各不相同,從整體上來講的話,有主從架構,比如HDFS就是這種典型主從架構,這種架構比較簡單,設計起來也比較容易去實現(xiàn)。
還有類似去中心化的這種架構。這種架構沒有單點問題,當然它也會帶來其他的問題,我們重點介紹主從架構。
不同系統(tǒng)架構設計,雖然有共性,但是這里特別強調(diào)他們還是有不一樣的地方。比如主從架構,從控制節(jié)點,存儲節(jié)點,通信機制,還有一系列的輔助能力,例如安全加密,面臨的單點問題和擴展性問題等等,在《Hadoop HDFS深度剖析與實踐》里面也寫到了對于超大規(guī)模的主從架構的解決方案,包括在基礎層面對元數(shù)據(jù)進行橫向的切分,形成多個Master和子集群,基于這些基礎,再構建虛擬層,然后對外屏蔽底層的構建,以此來解決大規(guī)模存儲下擴展性的問題。