新聞中心
時間:2021-10-27 15:48:55 次數(shù):3914
技術(shù)背景
大數(shù)據(jù)時代的到來,數(shù)據(jù)正以前所未有的速度爆發(fā)性增長,數(shù)據(jù)已經(jīng)成為土地、能源等傳統(tǒng)資源之外的一種新資源。大量的數(shù)據(jù)來自不同的源頭,雜亂無章,質(zhì)量參差不齊。一般單位少則十幾個信息系統(tǒng),多則幾十上百個,這些系統(tǒng)之間若溝通不暢,會產(chǎn)生數(shù)據(jù)孤島,造成工作效率低下。一方面大量數(shù)據(jù)閑置,無法有效被利用,另一方面數(shù)據(jù)被重復(fù)錄入,費(fèi)時費(fèi)力,容易產(chǎn)生差錯。
只有可管理,可調(diào)用,可計(jì)算,可變現(xiàn)的數(shù)據(jù)資源才能成為資產(chǎn),才能服務(wù)政府,城市和產(chǎn)業(yè),幫助實(shí)時統(tǒng)籌科學(xué)決策。正確決策來源于對實(shí)際情況的了解,某種意義上說,就是對來自各方的各類數(shù)據(jù)的正確匯集、整理、歸納、分析,從而得出正確的結(jié)論。
數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,通過應(yīng)用間的數(shù)據(jù)交換從而達(dá)到集成,解決數(shù)據(jù)的分布性和異構(gòu)性的問題,從而為企業(yè)提供全面的數(shù)據(jù)共享。
產(chǎn)品簡介
巨龍信息大數(shù)據(jù)集成系統(tǒng)是一款基于分布式并行計(jì)算架構(gòu)開發(fā)的ETL數(shù)據(jù)集成系統(tǒng)。采用組件化設(shè)計(jì),適配混合主流云,提供多種類型的數(shù)據(jù)抽取、整合插件、監(jiān)控組件、作業(yè)流程模型,支持快速定制插件開發(fā),具備高吞吐、高可用、高擴(kuò)展特性,為海量數(shù)據(jù)的超大規(guī)模數(shù)據(jù)倉庫建設(shè)提供抽取、整合、清洗、入庫等集成業(yè)務(wù)。
技術(shù)架構(gòu)
系統(tǒng)主要包含配置管理、任務(wù)調(diào)度、監(jiān)控中心、元數(shù)據(jù)管理等
運(yùn)行架構(gòu)
系統(tǒng)運(yùn)行具有高可用的特性,會自動感知執(zhí)行引擎異常,將異常設(shè)備的任務(wù)轉(zhuǎn)發(fā)到正常設(shè)備上重新執(zhí)行。運(yùn)行架構(gòu)如下圖:
部署架構(gòu)
系統(tǒng)部署包含應(yīng)用端、調(diào)度引擎、執(zhí)行引擎。
ETL-應(yīng)用: 完成數(shù)據(jù)集成邏輯的工作流建模和日常監(jiān)控管理。
ETL調(diào)度引擎:統(tǒng)一執(zhí)行邏輯的調(diào)度控制和任務(wù)分發(fā),分布式管理。
ETL-執(zhí)行引擎:ETL任務(wù)的具體執(zhí)行器。
部署架構(gòu)如下圖所示:
產(chǎn)品優(yōu)勢
■高吞吐處理能力:采用多線程處理算法,高效的內(nèi)存利用率;任務(wù)運(yùn)行過程無需本地磁盤IO操作,提升整體單位時間的大批量處理能力;支持TB/h級的大數(shù)據(jù)集成業(yè)務(wù)性能。
■高擴(kuò)展、高可靠:并行架構(gòu)提升單機(jī)處理能力的線性擴(kuò)展;新增執(zhí)行引擎的快速部署和自動識別,分布式架構(gòu)提升多機(jī)處理能力的線性擴(kuò)展;執(zhí)行引擎宕機(jī)的自動識別和任務(wù)轉(zhuǎn)移,保證任務(wù)的順利執(zhí)行。
■可視化流程配置:通過簡單的圖形拖拽配置數(shù)據(jù)集成流程,簡單易用的專業(yè)化配置。
■集成業(yè)務(wù)全流程監(jiān)控:可對處理過程的每個步驟,每個子流程處理進(jìn)行實(shí)時監(jiān)控,簡單快速發(fā)現(xiàn)處理過程遇到的漏數(shù)據(jù),錯處理等問題。
■統(tǒng)一的元數(shù)據(jù)模型:基于統(tǒng)一公共倉庫元模型,可與產(chǎn)品線其他產(chǎn)品無縫對接,簡化整體解決方案的實(shí)施運(yùn)維。
■大數(shù)據(jù)技術(shù)支持:支持主流的關(guān)系型數(shù)據(jù)庫,NOSQL數(shù)據(jù)庫,全文庫處理等主流大數(shù)據(jù)產(chǎn)品的抽取入庫,以及異構(gòu)庫之間的抽取入庫。
■低廉的硬件成本:使用x86架構(gòu)的PCServer,無需昂貴的unix服務(wù)器。
■數(shù)據(jù)源支持:支持超過40+數(shù)據(jù)源的鏈接包括國產(chǎn)數(shù)據(jù)庫。
■業(yè)務(wù)規(guī)則支持:支持自定義數(shù)據(jù)檢查規(guī)則、質(zhì)量規(guī)則、補(bǔ)全規(guī)則等,可以實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)集成需求。
■處理模式:支持批流一體化處理,大幅提升數(shù)據(jù)的采集和同步時間。
■快速擴(kuò)展支持:提供插件開發(fā)SDK,可快速定制開發(fā)所需的業(yè)務(wù)插件。
1、系統(tǒng)在某地配置管理2000余個大數(shù)據(jù)治理作業(yè),支撐日增量百億級別的數(shù)據(jù)抽取、整合、清洗、轉(zhuǎn)換、入庫等集成業(yè)務(wù),運(yùn)行穩(wěn)定。
2、系統(tǒng)在多地已經(jīng)分別與華為云、騰訊云、華三云、阿里云,甚至是一地多云進(jìn)行適配對接,完成數(shù)據(jù)的抽取、整合、清洗、轉(zhuǎn)換,入庫等集成業(yè)務(wù)。