當前位置: 主頁 > 科技 >

        睿帆科技:千億級數據毫秒響應的分布式列存數據庫雪球DB

        時間:2020-06-20來源:互聯網 作者:編輯 點擊:
        近兩年,大數據作為重要資源被提上國家戰略。今年兩會,馬化騰、雷軍、丁磊、張近東等互聯網企業的全國兩會代表委員就關于大數據戰略、數字經濟發展積極獻策。 此外,國家發改

        近兩年,大數據作為重要資源被提上國家戰略。今年兩會,馬化騰、雷軍、丁磊、張近東等互聯網企業的全國兩會代表委員就關于大數據戰略、數字經濟發展積極獻策。

        此外,國家發改委還在近期刊發了關于2020年發展數字經濟的八大舉措。

        例如“實體經濟數字化融合;促進數據要素流通;發展新型基礎設施”等,以鼓勵傳統產業加快數字化轉型,推進前沿信息技術在各場景的融合應用。

        海量的數據是政務管理、企業數字化轉型的核心生產因素,但現階段,真正被有效儲存、使用的數據還不到10。如何喚醒大量“沉睡的”數據并從中尋找、分析有價值的信息,促進業務發展,無疑是一個巨大挑戰。

        “4G時代,大數據更多是服務IT基礎建設成熟行業的頭部客戶,離個人還有一定距離。5G的到來和國家進一步提出深化大數據的發展,更多中小型企業對于數據采集、存儲、治理、分析和挖掘的需求也在快速增加。”在睿帆科技大數據科學家、雪球數據庫總架構師李求實博士看來,行業頭部企業數據每年以PB級甚至上百PB爆炸式增長,催生了對于PB級數據量在線或實時數據分析的處理能力的需求。

        關于PB級數據,美國未來學家雷·庫茲韋爾有過一個形象的比喻:如果人類功能記憶的容量預計在1.25個TB,那么800個人類記憶才相當于1個PB。

        面對龐大的數據量,很多企業早期主要通過抽樣數據來獲取結論。李博士告訴「獵云網」,這種方法的弊端在于“抽樣之后的數據變成了百萬級或千萬級,是原始數據的一個子集,和實際情況會有很大偏差,導致根據樣本得出的結論可靠性大大降低。”

        為了追求數據的準確性,有的企業不得不降低數據處理的實時性,采用離線處理的方式。但數據的價值就在于其時效性,越早分析越能得到快速準確的反饋或響應,并及時利用結論指導后續的業務工作。

        此時,一款針對海量數據進行毫秒級在線即席查詢分析的數據庫就顯得尤其關鍵——它甚至決定了企業是否能以比競爭對手更低的成本、更快的速度解決問題,構建起核心競爭力。

        滿足大數據量查詢的穩、準、快

        過去十年,業內一直推崇的分布式計算平臺是Apache基金會旗下的Hadoop。2009年,Hadoop將1TB數據的排序時間縮短到了62秒,從此名聲大噪。

        它也憑借其高可靠性、高可擴展性、高容錯性和低成本成為當今大數據領域運用最多、范圍最廣的技術平臺,被雅虎、FaceBook、last.fm等眾多公司應用。

        李博士介紹,由于Hadoop的設計初衷是針對存儲和分析離線大數據,因此無法提供便捷高效的數據交互、多維分析、快速查詢服務,“雖然產生了諸多如Spark、Impala、Drill等SQL?on?Hadoop項目來優化Hadoop在服務效率上的短板,但由于這些項目仍然基于Hadoop底層機制,所以無法從根本上解決這些問題。”

        為了幫助企業做到穩、準、快的實現海量數據的調用需求,掌握PB級數據核心處理技術的大數據產品及解決方案供應商睿帆科技,在原有的零距大數據中臺的基礎上,自研了一款具有千億級數據毫秒查詢速度的分布式分析型數據庫雪球DB。

        “雪球”的特點主要在于列式存儲,向量化執行引擎,高可靠的集群架構以及數據自動均衡、實現副本異步拷貝的能力。

        首先,與行式存儲將每一行的數據連續存儲不同,列存是連續存儲每一列的數據。它的優勢是在數據讀取時,只需要讀取參與計算的列,這極大降低了IO 的消耗,加快了查詢速度。與此同時,同一列中的數據屬于同一類型,這使得列式存儲可對數據進行高達十倍甚至數十倍的壓縮,這節省了存儲空間和成本消耗,非常適合大數據查詢分析和高并發查詢。

        其次,雪球DB還實現了向量化執行引擎,對內存中的列式數據,一個批次調用一次指令(而非每一行調用一次),不僅減少了函數調用次數,而且可以充分發揮指令的并行能力,大幅縮短了計算耗時。相當于讓數據處理的效率有了幾何倍的提升。

        此外,雪球DB通過Share-nothing節點方式,消除了主節點性能瓶頸,大幅提升集群性能。

        “Share-nothing說白了就是什么任何東西都不共享,好處就在于通過硬件設備的疊加,就可以完成性能的線性疊加。而傳統的關系型數據庫會共享一定的設備,因此會擁有疊加瓶頸,使其疊加效率非常低。”李博士表示。

        而針對傳統分布式系統宕機過程中造成各節點內數據分布不均衡的問題,睿帆科技開發了“應對節點宕機時的負載均衡優化”專利技術。

        理想狀態下,每個節點的計算量是同等的,否則工作量較大的節點將決定整體任務的完成時間,比負載平衡所用的時間大大延長。而一旦所有工作都集中在某一個或某幾個機器上,并行優勢也將無從體現。

        通過先進的Hash隨機算法,雪球DB能夠在一個節點宕機時自動均衡各節點內數據分布,保證各節點磁盤占用相對均衡,避免雪崩效應。同時,雪球DB支持多副本備份,可以在不同的節點上維護相同的數據。當前節點如果發生故障,則自動切換由備份副本提供服務。

        這些核心特點使得“雪球”在根本上解決了Hadoop體系交互復雜、效率低下的問題,滿足了海量數據在線交互、多維分析和高效查詢,確保數據分析結果更真實。

        李博士表示,雪球DB是基于高并發環境下、千億級數據毫秒級查詢所研發的數據庫。產品剛研發出來時,我們對于實際測試結果還是很興奮的。但合作伙伴試用后反饋效果一般,和其他數據庫產品差不多,都是在幾十毫秒左右。后來發現,他們只是拿雪球在做少量并發的常規數據查詢。但當對方內部系統升級,上線了很多新功能,數據量和并發數呈幾何性增長時,雪球DB和其他數據庫對比,性能優勢就顯現出來了,在海量數據高并發、多條件等苛刻場景下的測試,結果比原有數據庫快了幾個數量級。

        這家公司后來與睿帆建立了長期合作,其用戶覆蓋近億,單日增量數據超過1PB,在雪球DB的PB級聯機分析能力下,根本上解決了數據不及時、查詢延遲高、分析維度受限等問題,大幅提高了服務效率。

        疫情期間,某通信運營商就通過雪球DB解決了海量多種類型數據如何及時、高效地處理和分析的問題。

        “為了輸出潛在2B人員名單、分析疫情趨勢、建立駐留人員熱點區域圖,需要對海量數據進行調取分析。放在過去,需要大量的人工排查,耗時耗力。但通過我們毫秒級在線分析模型,幾分鐘就能調出結果。”李博士提到。

        或者在公共安全領域,面對多警種的數據內容,以千億級數據毫秒查詢速度,結合睿帆科技其他產品能夠將視頻、音頻、文檔、圖標等結構化非結構化數據進行實時分析可視化決策,實現警情態勢的全局把控。

        在原版雪球DB的基礎上,睿帆科技還針對小B客戶開發了“輕量版”。后者可以只在一臺機器上運行,不支持分布式和磁盤復制,削減了部分功能從而進一步降本增效。

        李博士告訴「獵云網」,由于大部分中小企業的數據調用需求受時間、季節的影響,比如銷售淡旺季、疫情關鍵節點等,因此針對這類客戶主要采用aPaaS模式,以公司的另一款產品零距大數據中臺作為最下層依托,與雪球相結合推出一整套解決方案——由于零距大數據中臺“低代碼+圖形化”的界面,因此可以極大地降低客戶使用門檻。

        大數據經濟真正的價值,在于普惠中小企業

        隨著信息技術和人類生活的深度融合,以及互聯網、移動互聯網和物聯網的快速發展,各行各業的數據呈爆發增長態勢。來自IDC的數據顯示,全球的數據量2020年將達到40ZB(1ZB=1024EB,1EB=1024PB),如果換算成128G iPad的高度,可以達到地球到月球距離的6.6倍。

        龐大的數據量也催生了數據存儲更多、更快、更穩定的需求。由于數據量的增長速度遠遠超存儲設備本身能力的增長,原有的存儲設備,甚至整個存儲架構都需要不斷擴容和升級。

        也使得大數據存儲技術在數據存儲的成本、數據讀寫能力以及數據自動備份安全性等方面,都面臨很大的挑戰。而這些痛點并不能僅通過硬件和存儲陣列本身存儲能力的提升來解決。

        在傳統的關系型數據庫無法滿足海量數據的存儲處理需求的情況下,以阿里巴巴為首的互聯網企業最早開啟了“去IOE化”的歷程。

        在此之前,阿里主要使用的是IBM、惠普的小型機,存儲設備主要是EMC的產品,和部分戴爾存儲設備;數據庫都是Oracle的。但在電子商務業務的爆發式增長下,原有的技術架構和成本阻礙了業務發展。

        所謂去IOE化,其實就是集中式部署(IOE架構)很難適應互聯網大規模應用對擴展性的要求,因此用分布式架構系統替代了集中式架構商用系統,進而有了分布式數據庫的產生。

        “IOE時代,數據通常存儲在IOE的硬件設備中,”李博士提到,“當數據量增加時,就會通過堆砌IOE的硬件設備來實現存儲任務。由于IOE的軟硬件相互配合,成本也會水漲船高。”

        但這套解決方案并非適用于所有公司。阿里的“去IOE”從2010年開始共耗時三年,前后投入近1.7萬名技術員工。遷移之后,系統的維護和運營成本的耗費也十分高昂,比如為了重新架構全新的運維體系,僅X86服務器就花了1.5萬臺,以替代原來的幾百臺小型機的系統。

        對于大多數具有成本壓力的中小企業,睿帆科技推出了一站式解決方案,它由零距大數據中臺為底層依托,再附加雪球DB和少量語料即可完成文本識別的大禹中文智慧文本平臺,三大產品組合形成了覆蓋結構化、非結構化、半結構化數據的整套系統。這套系統所有的產品都支持PB級以上的數據處理能力,同時還能支撐起產品對于性能和承壓性需求。

        “這種PB級+低代碼+數據中臺的組合可以讓中小型企業以相對較低的成本用上大數據產品。”在李博士看來,這才是大數據經濟真正的價值,即幫助更多傳統中小型公司通過對大數據的精細化管理,提升企業工作效率,實現轉型升級。

        睿帆科技成立于2015年,這期間,李博士和團隊見證了大數據應用不斷向產業互聯網延伸的趨勢,與此同時,華為、阿里等大廠也推出了自家的私有云解決方案和大數據解決方案,和創新型公司共同搶食大數據服務市場。

        “巨頭的加入驗證了行業的潛力,同時起到了一定的‘鯰魚效應’。”李博士認為,未來大公司的入局需要用更辯證的眼光來看待,一方面,未來的市場格局,普惠性的項目更多是交給巨頭來做,他們有充足的資源和資本;此外,如金融、安防等垂直細分市場可以交給睿帆科技這樣的技術型創新企業,“我們會深耕在我們已經布局的、擅長的,已經形成行業競爭壁壘的PB級大數據領域。”

        頂一下
        (0)
        0%
        踩一下
        (0)
        0%
        ------分隔線----------------------------
        發表評論
        請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
        評價:
        文章導航
        推薦內容
        主站蜘蛛池模板: 五月天精品在线| 成人在线不卡视频| 夜月高清免费在线观看| 亚洲男人天堂2022| 免费黄网站大全| 无码人妻精品一区二区| 免费夜色污私人影院在线观看| 888亚洲欧美国产VA在线播放| 最近的免费中文字幕视频| 国产精品欧美视频另类专区| 久久精品国产免费观看三人同眠| 美女羞羞喷液视频免费| 在线看一区二区| 久久青青草原亚洲AV无码麻豆 | 欧美sss视频| 国产99久久久久久免费看| 99久久人人爽亚洲精品美女 | 三上悠亚日韩精品一区在线| 波多野结衣伦理片| 国产成人精品午夜视频'| 一本大道无码日韩精品影视_| 欧美日韩不卡合集视频| 国产亚洲精品bt天堂精选| www.99re99| 最近2019中文字幕高清字幕| 午夜精品福利影院| a色毛片免费视频| 桃子视频在线官网观看免费| 另类小说图片综合网| 8av国产精品爽爽ⅴa在线观看| 成人无码精品1区2区3区免费看| 久久精品视频3| 男人使劲躁爽女人动态图 | 久久综合九色欧美综合狠狠| 欧美精品手机在线| 国产一区二区在线观看麻豆| 99久久99久久久99精品齐| 成人永久免费福利视频网站| 亚洲国产亚洲片在线观看播放 | 巨大黑人极品videos中国| 亚洲午夜无码久久|