摘要:萬物皆數(shù),唯數(shù)學洞察一切,計算使能萬物。
“萬物皆數(shù),唯數(shù)學洞察一切,計算使能萬物?!?/strong>這是第五代國產(chǎn)分布式智能數(shù)據(jù)庫AiSQL締造者、貝格邁思創(chuàng)始人張世明博士對于當下和未來數(shù)字社會的認知與思考。
張世明博士認為,未來所有需要解決的現(xiàn)實問題,最終都會回歸到相應的數(shù)學問題。
而數(shù)學問題自然要用數(shù)學思維去解決,這也是張世明博士成立貝格邁思的初衷。
發(fā)掘新硬件技術(shù)革新和軟件架構(gòu)進步,利用數(shù)學優(yōu)化算法模型,研發(fā)國內(nèi)首款內(nèi)存驅(qū)動架構(gòu)的自適應異構(gòu)智能計算引擎,全力打造第五代分布式智能數(shù)據(jù)庫AiSQL,真正首創(chuàng)踐行分布式數(shù)據(jù)庫核心卡脖子技術(shù)的國產(chǎn)化替代。
張世明博士畢業(yè)于香港大學計算機科學系,先后在德國慕尼黑大學LMU從事研究工作,曾任職于華為研究院諾亞方舟實驗室和百度研究院大數(shù)據(jù)實驗室,一直深耕大數(shù)據(jù)領(lǐng)域核心技術(shù),在分布式系統(tǒng)和大規(guī)模機器學習系統(tǒng)等領(lǐng)域具有豐富的研發(fā)和應用經(jīng)驗。
根植于“Bigmath”的貝格邁思,是一家為應對即將到來的快數(shù)據(jù)不斷增長的實時分析需求所面臨的諸多難題,特別是如何真正實現(xiàn)大規(guī)模數(shù)據(jù)的快速、實時優(yōu)化處理,提出了自己的破解之法、解決之道——自適應異構(gòu)智能計算引擎,打造新一代分布式數(shù)據(jù)智能平臺BigInsights的創(chuàng)新型公司。
數(shù)據(jù)井噴,追趕“快數(shù)據(jù)”
我們正在快速邁進數(shù)據(jù)智能時代的新紀元,未來幾年全球數(shù)據(jù)規(guī)模將繼續(xù)不斷增長,將讓現(xiàn)有的數(shù)據(jù)規(guī)模相形見絀,這些數(shù)據(jù)將帶來獨特的用戶體驗和眾多全新的商業(yè)機會?!翱鞌?shù)據(jù)”將是繼“大數(shù)據(jù)”之后,下一個十年顯著的時代特征,快數(shù)據(jù)的力量必將給我們帶來幾乎無限的變化。
首先,數(shù)據(jù)規(guī)模會得到爆炸性增長。隨著5G、物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、云計算等技術(shù)產(chǎn)業(yè)的快速發(fā)展,世界萬物互聯(lián)、智能感知,緊密相關(guān)的數(shù)據(jù)高速產(chǎn)生,全球數(shù)據(jù)量正迎來了爆發(fā)式增長。“大數(shù)據(jù)”躍然成為了“快數(shù)據(jù)”,全球數(shù)據(jù)正以難以置信的速度和體量產(chǎn)生。
IDC在《Data Age 2025》的報告中預測,從2018年到2025年,全球數(shù)據(jù)總量將從33ZB(1ZB=10億TB=1萬億GB)急速增長到175ZB,比2016年產(chǎn)生的數(shù)據(jù)量增加了十倍。其中,只有不足五分之一的數(shù)據(jù)將會得到實際應用,屬于數(shù)據(jù)分析的全球數(shù)據(jù)總量將增長至原來的50倍,而觸及數(shù)據(jù)庫管理分析的全球數(shù)據(jù)總量將增長至原來的100倍。
2020年,全球數(shù)據(jù)量已達到44ZB。其中,單在中國產(chǎn)生的數(shù)據(jù)量就達8ZB,約占據(jù)全球總數(shù)據(jù)量的五分之一。
與此同時,數(shù)據(jù)增長的速率正在不斷加快,數(shù)據(jù)中心承載的壓力也越來越大。其中,快速增長的實時數(shù)據(jù)的比例會大幅提升,到2025年,全球近30%的數(shù)據(jù)將是實時的。
其次,從數(shù)據(jù)到?jīng)Q策需要快速響應。無論是商業(yè)應用還是社會治理,數(shù)據(jù)實時價值日益凸顯,如何快速從海量實時數(shù)據(jù)中做出實時分析處理的需求不斷增加。面對高速產(chǎn)生的數(shù)據(jù),越來越多的用戶需要更加實時、更快速地進行數(shù)據(jù)分析、優(yōu)化處理。
數(shù)據(jù)爆炸正在驅(qū)動硬件、軟件及數(shù)據(jù)服務等市場前所未有的經(jīng)濟增長??鞌?shù)據(jù)時代,實時分析與實時決策將是數(shù)據(jù)分析的重點,傳統(tǒng)數(shù)據(jù)庫正面臨著不斷增長的數(shù)據(jù)規(guī)模和實時分析的雙重挑戰(zhàn)。
多年來,核心的數(shù)據(jù)處理硬件架構(gòu)仍基于經(jīng)典的馮·諾依曼體系結(jié)構(gòu),即指令與數(shù)據(jù)混合存儲,程序執(zhí)行時,CPU在程序計數(shù)器的指引下,線性順序地讀取下一條指令和數(shù)據(jù),以計算器為中心,這就注定了其本質(zhì)特點是線性或是串行性。
簡單來說,核心在于“串行”二字,存儲器是馮·諾依曼體系架構(gòu)的核心,CPU在每一次執(zhí)行命令前,都要從存儲單元中讀取數(shù)據(jù),執(zhí)行一次計算任務,就要讀取一次,執(zhí)行十次計算任務,就要讀取十次。
如此一來,馮·諾依曼體系結(jié)構(gòu)的弊端由此顯現(xiàn),即業(yè)界顯知的內(nèi)存墻問題,不僅需要花費大量功耗在數(shù)據(jù)頻繁讀取上,更致命的是:慢。
如果處理速度過慢,則無法滿足快速增長的數(shù)據(jù)實時分析決策處理的需求。面對快數(shù)據(jù),新一代數(shù)據(jù)庫需要解決三個基本問題:一,存儲和管理越來越大的數(shù)據(jù)承載量;二,將孤立的數(shù)據(jù)孤島連接起來;三,針對大規(guī)模數(shù)據(jù)進行實時分析。亟需對傳統(tǒng)數(shù)據(jù)庫進行技術(shù)革新,以應對不斷增長的快數(shù)據(jù)實時分析處理挑戰(zhàn)。
從零架構(gòu),打造自適應異構(gòu)智能計算引擎
后摩爾時代,為突破以CPU為中心的馮·諾依曼架構(gòu)的技術(shù)瓶頸,讓CPU、GPU、FPGA或其他各種智能計算芯片xPU一起協(xié)同計算,發(fā)揮不同處理器各自并行數(shù)據(jù)處理能力的優(yōu)勢來共同完成計算任務是關(guān)鍵。為達到此目標,張世明博士及其創(chuàng)新團隊踐行了一條全新的解決之道,以適應內(nèi)存驅(qū)動架構(gòu)的異構(gòu)智能計算引擎為基礎(chǔ),融合機器學習框架和高速網(wǎng)絡(luò),打造新一代分布式數(shù)據(jù)智能平臺BigInsights。
自適應異構(gòu)智能計算引擎真正實現(xiàn)數(shù)據(jù)實時分析的異構(gòu)智能計算優(yōu)化處理,是貝格邁思區(qū)別于其它同類型公司的基礎(chǔ)。
傳統(tǒng)數(shù)據(jù)庫都是以CPU為處理核心,或有部分采用GPU或FPGA做為協(xié)處理器加速數(shù)據(jù)分析任務,但其并沒有把數(shù)據(jù)庫的計算任務下放到不同的處理器去進行適配優(yōu)化處理。其結(jié)果是在不能進一步提升數(shù)據(jù)處理速度的同時還浪費了不同處理器各自的數(shù)據(jù)處理優(yōu)勢,即沒有發(fā)揮不同處理器的各自所長。
一個大的數(shù)據(jù)分析任務分配到計算機的內(nèi)部,會解析成為多個不同的子計算任務,這些子計算任務之間存在著不同的計算模式和關(guān)聯(lián)關(guān)系,貝格邁思可以通過這些計算模式和關(guān)聯(lián)關(guān)系進行不同計算任務的微調(diào)度,把相應的計算任務分別自動適配到各自適應的CPU、GPU、FPGA或其他各種智能計算芯片xPU上。
這就使得,原先需要等待CPU一步一步地串行完成的任務,現(xiàn)在針對現(xiàn)代CPU、GPU、FPGA或其他各種智能計算芯片xPU的不同并行數(shù)據(jù)分析能力,分解成不同的任務下放下去共同完成,將“單一處理模式”變成了“多重處理并行”,這即是所謂貝格邁思特有的自適應異構(gòu)智能計算引擎。
區(qū)別于其他競品公司需要開發(fā)相應的專用系統(tǒng)來實現(xiàn)此,貝格邁思的技術(shù)領(lǐng)先之處即在于直接通過內(nèi)置的自適應編譯引擎即可實現(xiàn)。
這樣結(jié)合諸多軟硬件技術(shù)進步從零架構(gòu)的新一代分布式智能數(shù)據(jù)庫AiSQL即第五代數(shù)據(jù)庫,不僅速度可以領(lǐng)先國際主流內(nèi)存計算平臺Spark超百倍,還可實現(xiàn)快數(shù)據(jù)復雜業(yè)務的實時分析處理,并實現(xiàn)在線系統(tǒng)彈性擴展、容災備份、多副本數(shù)據(jù)一致性同步、跨數(shù)據(jù)中心數(shù)據(jù)異步同步、自動數(shù)據(jù)遷移、高可用安全計算等新一代分布式智能數(shù)據(jù)庫所需的高效功能。
這種創(chuàng)新型的思考和落地實現(xiàn)是由以張世明博士為核心及張潼教授領(lǐng)銜的創(chuàng)新團隊歷經(jīng)多年合作研發(fā)而成,團隊聚集了多位海歸博士及國內(nèi)外著名企業(yè)的大數(shù)據(jù)與機器學習專家。他們熟識機器學習與人工智能應用的全流程技術(shù)要素,在大規(guī)模機器學習和高性能分布式系統(tǒng)研發(fā)方面有著豐富的經(jīng)驗。
五大核心技術(shù)助力應對快數(shù)據(jù)挑戰(zhàn)
據(jù)張世明博士介紹,支撐起異構(gòu)自適應智能計算框架的,主要是五大核心技術(shù):壓縮可檢索、加密可查詢、原生虛擬化、內(nèi)存驅(qū)動架構(gòu)和遠程內(nèi)存訪問,以這五大核心技術(shù)為基礎(chǔ),幫助用戶提升效率、降低風險,實時獲得更大的商業(yè)價值。
壓縮可檢索,面對較大的數(shù)據(jù)量,一般都會進行壓縮,而傳統(tǒng)技術(shù)壓縮處理后須解壓縮后方可進行計算,而貝格邁思則采用獨特的數(shù)據(jù)結(jié)構(gòu),實現(xiàn)優(yōu)于普通壓縮技術(shù)十倍的高效壓縮比,實現(xiàn)最小信息存儲,并在高效壓縮數(shù)據(jù)上直接實現(xiàn)微妙級的實時檢索,減少延遲,節(jié)約成本的同時,更大提升數(shù)據(jù)處理效率。
加密可查詢是一樣的道理,數(shù)據(jù)要上云,就必須要保證數(shù)據(jù)安全,數(shù)據(jù)加密后往往難以運算。貝格邁思使用最新加密可計算的安全協(xié)議,確保全程加密數(shù)據(jù)的安全計算,實現(xiàn)用戶可直接在加密數(shù)據(jù)上的高效查詢分析,保障用戶數(shù)據(jù)的安全可信計算,防范數(shù)據(jù)安全。
內(nèi)存驅(qū)動架構(gòu)則是以內(nèi)存為中心的體系架構(gòu),而不同于傳統(tǒng)的以CPU處理器為中心的馮·諾依曼架構(gòu),即多個異構(gòu)處理器共享統(tǒng)一的內(nèi)存池和自適應異構(gòu)智能計算引擎運行環(huán)境,實現(xiàn)真正大內(nèi)存計算環(huán)境,有效防止多處理器緩存數(shù)據(jù)頻繁遷移而導致的井噴效應,突破馮·諾依曼架構(gòu)的內(nèi)存墻計算瓶頸,打造基于內(nèi)存驅(qū)動架構(gòu)的自適應異構(gòu)智能計算一體機,滿足數(shù)據(jù)實時計算所需的強大算力需求。
原生虛擬化,為充分發(fā)揮新型硬件技術(shù)革新的高性能,突破操作系統(tǒng)的性能調(diào)度限制,讓數(shù)據(jù)分析引擎實例擁有專有的硬件設(shè)備資源,可以透過操作系統(tǒng)直接管理和操作這些專有的硬件設(shè)備,保證實時計算所需的硬件資源核心,同時保證不同數(shù)據(jù)分析引擎實例的安全隔離,實現(xiàn)裸機設(shè)備的輕量級實時虛擬化。
遠程內(nèi)存訪問,要實現(xiàn)大規(guī)模數(shù)據(jù)的內(nèi)存實時分析,諸如實現(xiàn)PB級數(shù)據(jù)的內(nèi)存實時分析,則需成千上萬的計算機組成網(wǎng)絡(luò)集群,協(xié)同進行分布式內(nèi)存計算方可完成,畢竟單臺計算機的內(nèi)存資源是有限的,不可能將PB級數(shù)據(jù)裝入其內(nèi)存。從而,實現(xiàn)多臺計算機間的內(nèi)存互訪成為問題的核心?;趦?nèi)存語義原語的遠程內(nèi)存訪問協(xié)議,實現(xiàn)分布式內(nèi)存計算框架,是貝格邁思自適應數(shù)據(jù)智能平臺的基礎(chǔ)。
目前,貝格邁思擁有的30多項核心專利都是圍繞以上五大核心技術(shù)延伸而來。張世明博士表示,這五大核心技術(shù),單獨拎一個出來都可以做出一個千億級市值的產(chǎn)品,這也是未來貝格邁思垂直拓展的方向。
站在宏觀的角度,把握數(shù)字化、網(wǎng)絡(luò)化和智能化融合的數(shù)字經(jīng)濟發(fā)展契機,是科技創(chuàng)新與產(chǎn)業(yè)變革的必由之路;站在用戶的角度,面對瞬息萬變的市場競爭,實時獲取數(shù)據(jù)的價值,是其立于不敗之地的關(guān)鍵。
貝格邁思將在數(shù)據(jù)智能技術(shù)創(chuàng)新賦能用戶這條道路上,繼續(xù)打磨技術(shù),為新一代分布式智能數(shù)據(jù)平臺BigInsights提供必要的算力支撐,促進數(shù)據(jù)智能創(chuàng)新技術(shù)在金融、醫(yī)療、環(huán)保、智慧城市、智能制造、物聯(lián)網(wǎng)和工業(yè)互聯(lián)網(wǎng)等領(lǐng)域的創(chuàng)新應用。
近日,國內(nèi)頭部UWB(UltraWideBand,即超寬帶)廠商長沙馳芯半導體科技有限公司(以下簡稱...
在當下,消費者對藥品品質(zhì)與安全愈發(fā)關(guān)注,醫(yī)藥行業(yè)的透明度與溯源需求日益凸顯。
罕見病依舊是醫(yī)藥行業(yè)的代表委員們“發(fā)聲”最密集的領(lǐng)域之一。
近日,國家市場監(jiān)督管理總局發(fā)展研究中心發(fā)布《2025數(shù)字平臺經(jīng)營環(huán)境治理報告》(簡稱《報告》)。
投資家網(wǎng)(m.51baobao.cn)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務,包括行業(yè)媒體、智庫服務、會議服務及生態(tài)服務。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。