<rp id="6lg6t"><nav id="6lg6t"><button id="6lg6t"></button></nav></rp>
    <tt id="6lg6t"><noscript id="6lg6t"><delect id="6lg6t"></delect></noscript></tt>

  • 首頁 > 業界

    新一代數據庫「偶數」獲紅杉中國、紅點中國投資,開源技術商業化是個好方向

    時間:2017-10-31 15:56:46 來源:36氪 作者: 徐寧

    1509436918590611.jpg

    偶數是一家算法公司。算法不斷迭代,就能讓數據庫提升更快的效率。

    “偶數”成立于2016年底,是一個基于HAWQ的新一代數據庫項目,目前團隊在30人。今年4月份公司獲得紅點中國的天使輪投資,又于近期完成了紅杉中國領投、紅點中國跟投的A輪融資,兩輪共計數千萬元。

    我們先來看一下數據庫的發展歷程。

    數據庫承擔的功能是存儲和計算,可分為交易型OLTP(on-line transaction processing)、分析型OLAP(On-Line Analytical Processing)兩類:

    交易型OLTP是最穩定的,主要是針對基本的、日常的事務處理,銀行交易就是一個典型的應用場景,由于不能出紕漏,大企業基本都選用Oracle的產品,該市場80%已飽和,并且增長緩慢。

    分析型OLAP是數據倉庫系統,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果,像現在智能交通中識別車牌就是典型應用,需要分析大量數據,以及現在正火熱的AI都需要分析型數據庫做底層支撐。分析型數據庫是創業公司的機會,存量市場在200億美元,目前還在保持高速增長。

    分析型數據庫目前已經歷三代,正朝著第四代演變。

    Oracle做為數據庫的巨頭,產品即有OLTP,也有OLAP。第一代分析型數據庫/OLAP,代表有Oracle的Exadata,缺點是只能儲存在EMC這樣的高端專有硬件上,每個節點要花費400多萬,并且,多節點共享一個存儲設備,導致可拓展性差,往往只能支持10幾個節點。

    接著,出現第二代數據倉——MPP大規模并行處理。這時,數據已經不需要儲存在專有硬件上,普通的x86服務器即可,成本自然下降。各個計算節點的數據獨立存在本地的硬盤上,互相之間不共享,計算時將任務并行的分散到多個服務器和節點上,在每個節點上計算完成后,將各自部分的結果匯總在一起得到最終的結果。代表產品有HP Vertica、EMC收購的Greenplum、IBM Netezza,雖然這種架構下節點可拓展至幾十個,但依舊不能滿足大規模的擴展需求。

    隨著Hadoop的發展,第三代數據庫崛起,數據存儲在HDFS上,HDFS是運行在通用硬件上的分布式文件系統。此時,存儲、計算分離,各節點之間能夠互相訪問,擴展性強,可以延伸到上千個節點。不過由于新產品的性能還沒能很好磨合,有些情況下,第三代數據庫不如第二代快速。

    之后,在Hadoop上就長出了很多開源技術,用來更進一步完善、優化性能,HAWQ就是其中之一,此外還有Hive、Impala、Spark SQL等。

    偶數的CEO常雷便是Apache HAWQ創始人,他告知,HAWQ數據庫可以比第二代快10倍,比第三代快30-50倍。

    數據庫的性能取決于“優化器”和“執行器”,其中優化器負責找出最佳步驟,執行器負責控制硬件。而HAWQ的關鍵就在于執行器。

    例如,給一堆數據做排序,“先排序還是先篩選”是由優化器決定,當優化器決定先排序時,接下來由執行器調配硬件。我們知道在冒泡排序的算法里,用一個數據跟其他比較然后插入位置,此時用兩個甚至多個同時計算就會快很多,而HAWQ就是用一種高級指令控制硬件,同時計算多條數據。

    再比如,CPU有一定的緩存空間,計算時訪問距離最近、速度最快,但空間有限,磁盤存儲空間最大卻訪問最遠、速度最慢,所以,怎樣分配指令,用最快的資源處理最實時的需求,就是HAWQ執行器需要做的事情。

    這樣看來,偶數是一家算法公司。算法不斷迭代,就能讓數據庫提升更快的效率。

    目前,偶數有兩款產品,一個是開源版的Apache HAWQ,另一個是商業版的Oushu Database(HAWQ++)。據常雷告知,剛發布的Oushu Database 3.0商業版比開源版快10倍,這樣算下來,就比Spark SQL等其他數據引擎快幾十倍。

    至于應用,偶數可以在數據庫內做AI算法,效果會優于TensorFlow,TensorFlow是獨立系統,加在數據庫外,而偶數的算法可以做在數據庫內,訪問越近,速度越快。常雷告知,像是航母、銀行、電力運維、金融、政府公安等行業目前都在應用偶數數據庫,像是傳感器采集大量數據的場景,都需要快速處理。

    收費方面,偶數商業版根據CPU/節點/容量收取賬號年費。

    對于本次融資,紅點中國管理合伙人袁文達先生表示:“紅點中國本身是很看好大數據技術領域未來的發展趨勢,在國內外投資了不少大數據技術公司,包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等,偶數團隊來自于Pivotal、IBM等著名軟件公司,對國內和國際市場以及產品落地有豐富的經驗,以及HAWQ++在MPP分析數據庫的技術處于國際領先水平。我們很高興跟這樣的團隊合作。”

    至于融資資金,常雷透露,將主要用于研發和市場。

    ----

    附:以下是Oushu Database 3.O主要的革新點

    1.   全新執行器,性能提升10倍。

    執行器是數據庫最核心的部件之一,Oushu Database 3.0對執行器進行了完全重新設計,充分利用了最新CPU的每一個特性,比如SIMD指令等,可以做到性能的極致。

    2.   支持ORC外部存儲格式,結合新的執行器,外部存儲的性能可以提升10-50倍。

    這就使得外部存儲達到了內部存儲的性能。

    3.   支持新一代可插拔存儲框架,只需簡單編寫幾個函數就可以添加一個外部數據源。

    傳統數據倉庫連接外部數據往往都是使用Connector形式,性能很慢,從而導致用戶需要使用先導入外部數據再查詢的方式,數據需要在多個系統存儲多份,浪費了多倍存儲空間。

    結合新一代執行器,Oushu Database可插拔存儲框架使得數據庫可以直接高性能訪問外部數據,查詢外部數據的性能和查詢內部數據類似。



    智能界(www.xingtupian.com)中國智能科技聚合推薦平臺,秉承“引領未來智能生活”的理念,專注報道智能家居、可穿戴設備、智能醫療、機器人、3D打印、智能汽車、VR/AR/MR/、人工智能等諸多科技前沿領域。關注智能創新對人的生活方式、價值的改變,致力傳播放大這部分聲量。聚合品牌宣傳、代理招商、產品評測、原創視頻、fm電臺與試用眾測,深入智能科技行業,全平臺多維度為用戶及廠商提供服務,致力成為中國最具影響力的智能科技聚合推薦平臺。


    智能界【微信公眾號ID:znjchina】【新浪/騰訊微博:@智能界】


    評論列表(已有條評論)

    最新評論

    智能界

    智能界(www.xingtupian.com)

    中國智能科技聚合推薦平臺

    欧美高清视频www夜色资源