新聞中心
時(shí)間:2019-03-27 13:22:05 次數(shù):3616
近幾十年來(lái),科學(xué)技術(shù)的迅猛發(fā)展和信息化的推進(jìn),使得人類(lèi)社會(huì)所積累的數(shù)據(jù)量已經(jīng)超過(guò)了以往過(guò)去幾千年的所有總和,數(shù)據(jù)采集、存儲(chǔ)、處理和傳播的數(shù)量也與日俱增。如何對(duì)數(shù)據(jù)進(jìn)行有效的集成管理已成為行業(yè)關(guān)注的焦點(diǎn)。
數(shù)據(jù)集成2.0的現(xiàn)在時(shí)
隨著大數(shù)據(jù)、云計(jì)算、人工智能的快速落地,未來(lái)信息技術(shù)變化風(fēng)云莫測(cè),大數(shù)據(jù)、云計(jì)算、人工智能、區(qū)塊鏈等技術(shù)的快速落地,也在加速數(shù)據(jù)集成形態(tài)發(fā)生改變。首先我們來(lái)舉一個(gè)例子:某客戶(hù)擁有上萬(wàn)個(gè)數(shù)據(jù)源,主要類(lèi)型分為業(yè)務(wù)系統(tǒng)和物聯(lián)網(wǎng)監(jiān)控?cái)?shù)據(jù),根據(jù)發(fā)展需要把這些基礎(chǔ)設(shè)施的數(shù)據(jù)和業(yè)務(wù)系統(tǒng)數(shù)據(jù)匯集到數(shù)據(jù)中心,數(shù)據(jù)中心的目標(biāo)源主要有Mpp、Hive、HDFS、HBase等分布式存儲(chǔ)源;如果每天需要把這些數(shù)據(jù)完成采集,需要每小時(shí)具備1TB數(shù)據(jù)處理能力;基于此客戶(hù)拋出幾個(gè)需求:
需求一
需要針對(duì)數(shù)據(jù)量進(jìn)行實(shí)時(shí)增量同步,每小時(shí)需要具備處理增量數(shù)據(jù)5TB能力。
需求二
針對(duì)每類(lèi)數(shù)據(jù)同步流量可實(shí)現(xiàn)流控,在必要時(shí)可犧牲一些無(wú)關(guān)緊要數(shù)據(jù)來(lái)保證整個(gè)數(shù)據(jù)集成平臺(tái)的穩(wěn)定運(yùn)行。
需求三
客戶(hù)希望面對(duì)復(fù)雜數(shù)據(jù)處理工作能夠提供面向業(yè)務(wù)人員可操作的界面;減少實(shí)施人員環(huán)節(jié),加快數(shù)據(jù)處理工作效率。
需求四
客戶(hù)希望在使用過(guò)程中由于網(wǎng)絡(luò)、斷電、服務(wù)器崩潰等因素導(dǎo)致數(shù)據(jù)同步中斷的時(shí)候,實(shí)現(xiàn)數(shù)據(jù)斷點(diǎn)續(xù)傳能力。
這幾個(gè)需求是典型大數(shù)據(jù)時(shí)代數(shù)據(jù)集成面臨的挑戰(zhàn),客戶(hù)就是希望統(tǒng)通過(guò)技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)治理,提升決策效率和數(shù)據(jù)價(jià)值。目前我們也正在處于這個(gè)時(shí)代,這個(gè)時(shí)期的數(shù)據(jù)集成產(chǎn)品如果要有競(jìng)爭(zhēng)力,應(yīng)該為數(shù)據(jù)集成賦予人工智能、分布式計(jì)算技術(shù)等能力;基于上述需求進(jìn)行提煉,歸結(jié)為以下幾個(gè)特點(diǎn):
基于人工智能技術(shù)實(shí)現(xiàn)數(shù)據(jù)開(kāi)發(fā)設(shè)計(jì),基于大數(shù)據(jù)技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)實(shí)時(shí)采集、實(shí)時(shí)計(jì)算、實(shí)時(shí)同步;目前市面上有些廠商也逐步推出了新一代的數(shù)據(jù)集成平臺(tái)產(chǎn)品,基本設(shè)計(jì)思路都是基于Kafka+分布式計(jì)算引擎(SparkStreaming+Storm+Filnk)+調(diào)度平臺(tái),實(shí)現(xiàn)新一代的數(shù)據(jù)集成平臺(tái)全新技術(shù)架構(gòu),從目前這些廠商推出的產(chǎn)品,筆者也進(jìn)行相關(guān)試用,無(wú)論是國(guó)外的還是國(guó)內(nèi)的,平臺(tái)還需要待完善;主要存在以下幾個(gè)方面:
問(wèn)題:目前數(shù)據(jù)接入都是標(biāo)準(zhǔn)接入能力,基于物聯(lián)網(wǎng)的協(xié)議和數(shù)據(jù)庫(kù)的實(shí)時(shí)增量,新一代的設(shè)備廠商大部分都解析成了文本數(shù)據(jù),但是基于數(shù)據(jù)庫(kù)的實(shí)時(shí)數(shù)據(jù)還是得需要平臺(tái)自身提供能力,否則站在整個(gè)業(yè)務(wù)閉環(huán)的角度,實(shí)時(shí)集成的第一公里,這個(gè)平臺(tái)是沒(méi)有解決的。
解決方法:逐步增強(qiáng)輸入源組件的能力,解決第一公里。
問(wèn)題:新一代的數(shù)據(jù)集成平臺(tái)大部分的組件使用較為復(fù)雜,大部分組件需要具備大數(shù)據(jù)技術(shù)能力和開(kāi)發(fā)經(jīng)驗(yàn)的人上手會(huì)比較快,其他運(yùn)維和實(shí)施工程師學(xué)習(xí)成本較大。
解決方法:引入人工智能技術(shù),傻瓜式的組件使用。
問(wèn)題:數(shù)據(jù)集成平臺(tái)采集大部分是未遵循相關(guān)標(biāo)準(zhǔn),采集過(guò)程沒(méi)有遵循相關(guān)配置規(guī)范,導(dǎo)致后續(xù)運(yùn)維困難。
解決方法:引入數(shù)據(jù)標(biāo)準(zhǔn)體系,針對(duì)數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)同步定義相關(guān)標(biāo)準(zhǔn)和規(guī)范,給數(shù)據(jù)開(kāi)發(fā)定義軟件工程設(shè)計(jì)思路,實(shí)現(xiàn)數(shù)據(jù)開(kāi)發(fā)工程管理。
問(wèn)題:針對(duì)數(shù)據(jù)采集過(guò)程中,數(shù)據(jù)時(shí)代,數(shù)據(jù)的價(jià)值和安全越發(fā)重要,數(shù)據(jù)集成平臺(tái)依據(jù)互聯(lián)網(wǎng)思維延伸過(guò)來(lái),安全體系缺失,會(huì)出現(xiàn)嚴(yán)重泄露情況。
解決方法:做到“三權(quán)分立”的原則,即數(shù)據(jù)操作權(quán)、數(shù)據(jù)使用權(quán)、資源管理權(quán);數(shù)據(jù)操作員依據(jù)資源管理員分配相關(guān)數(shù)據(jù)操作權(quán)限,數(shù)據(jù)使用員依據(jù)資源管理員的權(quán)限使用和查看相關(guān)數(shù)據(jù),資源管理員只能知道平臺(tái)具備什么資源,具體數(shù)據(jù)無(wú)法查看。
綜上所述,新一代的數(shù)據(jù)集成平臺(tái)用“海量、實(shí)時(shí)、智能、標(biāo)準(zhǔn)、安全”這五個(gè)關(guān)鍵詞針對(duì)數(shù)據(jù)集成平臺(tái)進(jìn)行立體化的評(píng)估。
通過(guò)圖中可以得出,在發(fā)展初期平臺(tái)廠商目前更多主要基于海量數(shù)據(jù)處理和實(shí)時(shí)計(jì)算兩部分進(jìn)行了重點(diǎn)打造,另外三個(gè)板塊還處于研究和探索階段,預(yù)估在未來(lái)兩年左右會(huì)趨向成熟。
數(shù)據(jù)集成3.0的未來(lái)史
全球智能手機(jī)的快速發(fā)展,推動(dòng)了移動(dòng)終端和“邊緣計(jì)算”的發(fā)展。而萬(wàn)物互聯(lián)、萬(wàn)物感知的智能社會(huì),則是跟物聯(lián)網(wǎng)發(fā)展相伴而生,邊緣計(jì)算系統(tǒng)也因此應(yīng)聲而出。事實(shí)上,物聯(lián)網(wǎng)的概念已經(jīng)提出有超過(guò)15年的歷史,然而,物聯(lián)網(wǎng)卻并未成為一個(gè)火熱的應(yīng)用。一個(gè)概念到真正的應(yīng)用有一個(gè)較長(zhǎng)的過(guò)程,與之匹配的技術(shù)、產(chǎn)品設(shè)備的成本、接受程度、試錯(cuò)過(guò)程都是漫長(zhǎng)的,因此往往不能很快形成大量使用的市場(chǎng)。5G時(shí)代已經(jīng)吹響號(hào)角,多家廠商密集發(fā)布5G手機(jī) ,外加折疊屏等新技術(shù)帶來(lái)潛在換機(jī)需求,出貨持續(xù)下滑的智能機(jī)市場(chǎng)能否迎來(lái)一線(xiàn)生機(jī),這個(gè)還需要市場(chǎng)檢驗(yàn)。
前面加了一些偏離主題的內(nèi)容,看似偏離,其實(shí)也是在引入一個(gè)問(wèn)題,未來(lái)的數(shù)據(jù)集成平臺(tái)還存在嗎?如果存在,他將會(huì)是什么形態(tài)呢?我們可以結(jié)合行業(yè)發(fā)展趨勢(shì)和信息技術(shù)發(fā)展情況進(jìn)行大膽猜想。
根據(jù)Gartner的技術(shù)成熟曲線(xiàn)理論來(lái)說(shuō),在2015年IoT從概念上而言,已經(jīng)到達(dá)頂峰位置。因此,物聯(lián)網(wǎng)的大規(guī)模應(yīng)用也開(kāi)始加速。因此未來(lái)5-10年內(nèi)IoT會(huì)進(jìn)入一個(gè)應(yīng)用爆發(fā)期,邊緣計(jì)算也隨之被預(yù)期將得到更多的應(yīng)用。估計(jì)還是有人對(duì)這個(gè)詞語(yǔ)比較陌生,按照百度百科的解釋?zhuān)?span style="font-weight:700;">“邊緣計(jì)算是指在靠近物或數(shù)據(jù)源頭的一側(cè),采用網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力為一體的開(kāi)放平臺(tái),就近提供最近端服務(wù)”。
隨著5G+邊緣計(jì)算+區(qū)塊鏈+云計(jì)算+人工智能等新技術(shù)快速商用,我們針對(duì)這個(gè)世界更加感知為一個(gè)由數(shù)據(jù)產(chǎn)生的信息時(shí)代;邊緣計(jì)算解決就近應(yīng)用問(wèn)題,提升用戶(hù)感知,區(qū)塊鏈解決邊緣計(jì)算與云計(jì)算中心的信息安全問(wèn)題,5G解決雙方之間的傳輸效率問(wèn)題,人工智能技術(shù)應(yīng)用到每一個(gè)邊緣計(jì)算應(yīng)用中,提升智能化商業(yè)應(yīng)用落地。
數(shù)據(jù)集成平臺(tái)主要解決異構(gòu)數(shù)據(jù)源數(shù)據(jù)整合的問(wèn)題,假如我們未來(lái)的相關(guān)應(yīng)用基本按照標(biāo)準(zhǔn)的思路進(jìn)行建設(shè),還會(huì)存在異構(gòu)源數(shù)據(jù)整合問(wèn)題嗎?答案是肯定存在的,我們大膽猜想,所有的應(yīng)用已經(jīng)完全標(biāo)準(zhǔn)化,所有行業(yè)的標(biāo)準(zhǔn)也規(guī)范化了,但是每個(gè)行業(yè)的標(biāo)準(zhǔn)必然是不一致的,未來(lái)可能存在某些行業(yè)的顛覆和消失,但一個(gè)國(guó)家的綱領(lǐng)必然存在,一個(gè)國(guó)家各個(gè)機(jī)構(gòu)需要獨(dú)立運(yùn)轉(zhuǎn),那么運(yùn)轉(zhuǎn)的數(shù)據(jù)規(guī)范必然存在差異,有差異就需要數(shù)據(jù)治理,那么就需要針對(duì)數(shù)據(jù)進(jìn)行融合。故未來(lái)數(shù)據(jù)集成平臺(tái)必然還會(huì)存在,那么它將是以什么形態(tài)存在呢?
未來(lái)數(shù)據(jù)集成能力主要還是解決異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)的整合問(wèn)題,平臺(tái)部分能力需要前移,交由前端應(yīng)用完成,數(shù)據(jù)集成平臺(tái)會(huì)考慮把維護(hù)的相關(guān)標(biāo)準(zhǔn)下發(fā)到各個(gè)應(yīng)用中,而它盡可能的去實(shí)現(xiàn)標(biāo)準(zhǔn)管控的能力,盡量減少邊緣計(jì)算應(yīng)用與云計(jì)算之間的交互響應(yīng)時(shí)間。