IT商業網-解讀信息時代的商業變革
當前位置: 首頁 > 網絡 > 正文

星環科技孫元浩:用自研框架取代Hadoop,加速實現基礎軟件國產化替代數字觀察

2019-11-07 10:42:57 來源:   

  2019年將近尾聲,談到截止目前,2019年星環科技所取得成績,創始人孫元浩做了一些簡單的總結。

  “第一,從產品線來說,從2017年開始,星環科技已經基本確定三條產品線,大數據產品是主要產品線,而人工智能機器學習平臺和容器的智能大數據云平臺,是圍繞客戶在使用大數據基礎軟件的基礎需求上,對AI建模、容器編排等需求延展的產品線。

  同時,大數據產品線堅持自主研發,技術上不斷更新迭代,應用范圍越來越廣,成功取代了Teradata或者Cloudera、IBM等國外廠商,有一些比較典型的客戶案例落地。

  其次,伴隨著產品更新,星環科技的客戶群體也不斷擴張,已覆蓋金融、政府、能源、交通、教育、制造業、運營商、傳媒等二十多個行業,其中,財政部、國家郵政局、國家商標局、中國人民銀行、國泰君安、招商證券、中國郵政、中國石油、廣州供電局等都是星環的標桿客戶。

  總的來說,2019年我們在技術產品上有比較大的突破,讓整個公司的發展到了一個新的里程碑階段。在品牌推廣和市場占有上,我們會繼續努力。”

  星環科技成立于2013年,總部位于上海,定位于提供大數據和人工智能的技術平臺。創始人孫元浩任英特爾亞太研發有限公司數據中心軟件部CTO,在2009年帶領團隊研究Hadoop于2011年發布了英特爾Hadoop發行版。隨著大數據概念的興起,越來越多的人知道了Hadoop這款專門處理大數據的軟件。

  2013年,孫元浩帶領創始團隊成立星環科技。

  值得一提的,2019年10月星環科技完成5億D2輪融資,這距星環D1輪融資后,僅僅半年多的時間。同時,星環科技也入選i黑馬&數字觀察發布《產業互聯網產業獨角獸》榜單里的硬獨角獸稱號。

  大數據進入3.0時期

  是人工智能、大數據與云計算融合階段

  我們知道,自計算機誕生以來,信息技術潛移默化的影響著人類生活的方方面面。尤其是近十余年來,大數據、人工智能、云計算等技術蓬勃發展,讓人們的生活方式每隔幾年就產生天翻地覆的改變。

  這時候,企業每天產生的數據量正呈爆炸式增長,面臨海量的數據,傳統數據庫的IT架構和處理技術已經逐漸無法適應巨大的數據處理需求。如果按照傳統方式,數據量的存儲和處理將耗費大量的時間和硬件成本。

  在孫元浩看來,目前,大數據已經進入3.0時代,隨著技術不斷延伸發展,大數據、人工智能與云計算的邊界越來越模糊,三類技術不斷互相影響與融合。

  “我們指的大數據3.0是從技術角度來分類的,大數據技術可以分為三代。星環科技成立之初,正處在大數據1.0的階段,大部分公司都是使用開源的軟件,用API去開發編程。這樣帶來的問題是,產品受限,而且只有大公司才有玩轉大數據的能力。

  大數據2.0時代是一個百花爭鳴的時代,更多的玩家參與到了技術角逐中,誕生了很多全新的技術,能解決更多業務場景下的實際問題。

  從2017年起,結構化數據的處理問題已經基本解決,人們開始把關注焦點轉到了非結構化數據處理上面,特別是圖像、視頻、語音、文本的處理。這時期人們將此前在非結構化數據表現出眾的深度學習技術與大數據技術相結合,大數據技術開始進入3.0時代。”

  孫元浩告訴i黑馬&數字觀察,大數據3.0時期的技術首先要具備四個統一:第一,統一融合的數據平臺,取代混合架構。

  目前的企業數據業務架構中,往往需要包含數據湖、數據倉庫、數據集市、綜合搜索等不同數據業務系統,很多企業采用復雜的混合架構,不僅產生龐大的數據冗余,也嚴重限制了數據應用的時效性。新的大數據平臺需要能一站式的滿足所有需求,解決大數據的4-V需求,應對從快速響應到海量分析的各層級需求,淘汰混合架構的模式。

  第二,統一的開放接口。據悉,SQL作為經過歷史檢驗的結構化查詢語言,具有龐大的用戶群和靈活性,開發人員無需了解架構細節就能高效開發應用,而以往通過API開發的方式存在應用兼容性差、開發難度高等問題。

  新一代大數據平臺需要使用SQL來支持全部功能,包括數據倉庫、OLTP數據庫、搜索引擎、實時計算、時空數據庫等,降低開發者門檻,加快產品開發與上線速度。

  第三,統一的管理和調配。云計算的彈性和隨處接入可以讓更多的數據業務和開發者使用大數據技術,因此新的大數據技術需要能夠提供云化的能力。

  在硬件層面上,大數據平臺對CPU、GPU、網絡、存儲等資源進行統一管理和調配,基于容器技術實現云上的大數據應用統一部署,平臺租戶按需申請大數據的技術和產品。此外云化可以極大的降低運維成本,使得單單一個團隊就可以同時運維很多的大數據系統軟件。

  第四,統一的數據倉庫與數據資產的管理。數據業務化是大數據技術最終的價值體現,而在新的架構設計上,星環科技也把這個要素作為重要的設計考量點。

  在數據層面上,平臺所有數據統一存儲,建立統一的數據倉庫與數據資產目錄,再根據應用場景傳輸至不同數據集市中,各業務部門根據需求調用,打通數據孤島,提升數據質量,轉化數據價值。

  在模型層,通過建立模型市場,租戶訓練好的模型可以選擇一鍵發布至模型市場,其他租戶無需重復訓練,直接調用。

  在應用層,平臺內用戶可將業務驗證過的應用發布至企業級應用市場,共享給其他用戶,所有運行的應用被統一管理。

  其次,大數據3.0時期的技術本質是融合。隨著時間和業務不斷的發展,人們提出了新的需求,是否能將大數據這種分布式的架構部署在云平臺上,更好的實現數據共享,解決數據孤島和煙囪開發等難題。

  所以,在大數據3.0時代,大數據技術、人工智能技術、云計算技術開始融合,融合在一個平臺中,滿足企業客戶各種不同層次的大數據需求。

  簡單來說,大數據技術,解決了深度學習計算力和訓練數據量的問題,開始產生巨大的生產價值。同時,大數據技術通過將傳統機器學習算法分布式實現,向人工智能領域延伸。

  此外,隨著數據不斷匯聚在一個平臺,通過容器技術,在容器云平臺上構建大數據與人工智能基礎公共能力,將人工智能、大數據與云計算進行融合。

  “伴隨著大數據3.0的出現,大數據的新的基礎架構開始出現,要實現上面提到的四個統一:統一的編程語言或者操作語言,統一的計算引擎,統一的存儲管理系統,統一的資源調度系統,和一個不同,即不同的數據模型。

  總體來說,大數據3.0階段,統一和融合是主旋律。”

  圍繞上述思路,在大數據3.0時代,產業趨勢出現變化,而星環科技的業務模式,也將會出現變化。

  根據孫元浩介紹,星環科技的具體的做法是:

  第一,建立統一的數據的平臺,將大數據技術和人工智能技術融匯起來,也可以依賴智能化的方式來梳理數據,并保證數據質量。2018年星環科技發布的新一代智能大數據云平臺TDC,踐行了大數據、人工智能與云計算的融合趨勢,推動服務容器化以及大數據生態上云。

  第二,建模型生態、應用生態。星環科技認為,必須要有標準的接口才能形成生態,星環科技的大數據平臺提供SQL、R和Python三種語言,用戶和生態伙伴就不必關心底層使用哪種引擎實現,就可以極大程度的降低開發成本。

  其三,通過云化的PaaS層提供開發平臺,用戶無需關注底層細節,讓服務隨處可用。過去,當客戶需要去用大數據服務的時候,先要立項,再找廠商走流程,初次獲取成本高,需要構建團隊,而且經常采用煙囪式的開發。

  星環科技希望的是,服務可以立馬可用,不管是做數據、提供數據、分析數據,還是做開發模型的人,都能夠找到他期望的工作平臺和工作方式。

  那么,對于星環科技來說,如何才能形成這種四個統一、一個不同的呢?

   自研框架取代Hadoop

  想要加速實現基礎軟件國產化替代

  i黑馬&數字觀察了解到,從2013年公司成立到現在,星環科技這6年主要經歷三個發展階段。上文提到,最初星環科技的產品主要是基于Hadoop和Spark實現的,星環科技抱著想讓更多客戶享有大數據能力的想法,專注在大數據的數據庫化上。

  “2013-2014年,星環科技還屬于基于開源技術,做產品化探索階段,當時還是以純大數據為主,提供分析型數據庫產品。”

  到了2014年,星環科技進入第二個階段。但隨著星環科技的產品和業務不斷發展,Hadoop在技術和商業方面的局限性慢慢凸顯出來。

  星環科技的業務想圍繞基礎軟件這一層,繼續往上走。Hadoop是最底層,再往上還有很多工作,開源軟件是無法做好這部分內容,特別是針對企業級服務市場。

  但是Hadoop起源于互聯網公司,存在很多優點:處理數據量很大,支持非結構化數據,海量存儲而且成本很低。

  而對于服務企業級市場,開源軟件在應用上存在很多不足。例如,銀行的數據分析有三十幾個模塊,這些模塊都是基于Oracle或者是IBM的數據庫,可能涉及幾十萬行代碼,將這些都改成與Hadoop接口相適應的程序是不現實的。而且開源的Hadoop最開始都沒有一個圖形化的界面,都是以命令行來操作的。

  上述這些都制約了Hadoop在企業級市場的發展,但是企業級客戶又很看好這種軟件的未來。

  另一方面,孫元浩指出,Hadoop作為基礎框架,其設計需要結合硬件情況,而Hadoop是基于15年前的技術環境設計的,是低速硬盤,低速網絡時代。

  如今的硬件技術環境發生根本性變化,網絡普及萬兆,存儲每秒鐘能夠做上百萬次操作,當時的架構已經完全跟不上硬件的發展。

  其次,從企業應用需求的角度來看,Hadoop軟件是仿造谷歌的系統來構建的,最初的目標是用于互聯網公司的日志處理和營銷推廣等場景。

  當Hadoop技術應用到各行各業時,就發現它在功能缺失、一致性和可靠性、高性能并發等問題上的局限性,無法突破,甚至有分析機構說Hadoop技術已死。

  “例如,過去我們企業做交互分析時候,數據量一個TB就夠了,尤其是在美國,數據量基本是100G就足夠支撐企業的交互分析需求,這也促使美國的基礎軟件服務商沒有動力去開發高度可擴展的引擎。

  但在中國的情況不太一樣,隨著移動化、大數據、云計算、物聯網、人工智能的發展,多重技術浪潮疊加發展,促使中國企業的數據量呈現爆發式增長,像運營商或者金融行業,終端客戶都是to C的,客戶群體很大,數據量也很大,動輒幾百個TB,傳統的Hadoop技術根本支撐不了,傳統的大數據引擎產品也滿足不了客戶需求。

  不僅是并發量承載的問題,資源隔離、資源調度等問題,傳統的Hadoop也存在很大的問題。在這種環境下,我們如果想活下去,滿足客戶的需求,就必須有絕招,像我們這樣的創業公司,沒有背景沒事,可以拼技術,所以我們從2015年開始研發閉源基礎架構。”

  依托于星環科技的創始團隊技術基因濃厚,本身就擅長研發,還具有豐富的框架設計和開發經驗,慎重考慮后,選擇了完全脫離Hadoop框架,從2015年開始,星環科技的團隊開始重新設計研發自己的大數據處理框架。目的是想把將之前傳統的底層框架都替換掉。

  據悉,星環科技重構一個五層架構,脫離了原來架構,更容易在技術上突破,如在分析數據庫,星環科技遠遠甩開了國外的大數據廠商,也超過了傳統數據庫廠商。在一些數據技術上面,星環科技可以把批處理與事件驅動的流處理融合,實現了別人難以實現的技術突破。

  到了2017年,星環科技不但把引擎和資源調度器給徹底改造了,還把AI的產品獨立出來。“如果說前幾年還是在產品形態探索階段,那么這兩年基本確定我們的產品方向,繼而重點研發自己的技術架構。

  同時,2014年之后也是我們商業化探索階段,已經打磨出一些標桿性客戶。到了2015年是星環科技真正商業化落地階段,拓展市場。”而2017年到現在,是星環科技規模化增長的階段,開始在市場宣傳和銷售方面進行投入。”

  在談到從開源到閉源自主框架研發的難點與挑戰,孫元浩表示,“早些時候星環科技要堅持自己的技術路線,需要和Hadoop技術路線兼容,很多企業客戶看到我們不用Hadoop技術,就不敢用,所以我們需要花很多時間和精力,研究產品的兼容性。

  其次,即使很多客戶想用我們自研產品,也不敢輕易完全替換Hadoop,需要長時間的測試和驗證,同類產品反復對比。所以,我們都是從很簡單的基礎應用部分開始替換,讓客戶慢慢接受,然后我們開始在更多的應用上替換。”

   覆蓋ABC三大領域

  為頭部企業提供一站式基礎軟件平臺

  經過多年發展,星環科技實現了AI、大數據、云計算的融合,充分發揮大數據平臺的多年積累和技術優勢,完善人工智能平臺建設,并推出新一代智能大數據云平臺。

  首先,星環科技打造的一站式大數據平臺Transwarp Data Hub ( TDH ),這是一站式的企業級大數據平臺,也是核心的產品。

  據悉,TDH主要提供5類核心產品:分析型數據庫(Transwarp Inceptor和Transwarp ArgoDB),實時流計算引擎(Transwarp Slipstream),知識庫(Transwarp Search和Transwarp StellarDB),操作型數據庫(Transwarp Hyperbase),數據科學平臺(Transwarp Discover)。通過部署、安裝、使用TDH,企業能夠更有效的利用數據構建核心商業系統,加速商業創新。

  其次,星環科技還把機器學習的建模平臺給分離出來,形成一個獨立產品線智子人工智能平臺Transwarp Sophon。平臺對應有四種不同的引擎,包括統計、機器學習、深度學習還有圖的分析引擎,在其上提供交互式的建模工具。

  在原有產品基礎上,星環科技所有產品實現了容器化部署,,將應用、數據、模型統一化,可以提供IT所需要的基礎設施、中間件、PaaS平臺包括應用hosting。

  這樣在產品布局上,星環科技的三大產品線覆蓋ABC三大領域。可以滿足各種不同層次的大數據需求,解決了深度學習計算力和訓練數據量的問題,開始產生巨大的生產價值。

  同時,大數據技術通過將傳統機器學習算法分布式實現,向人工智能領域延伸;此外,隨著數據不斷匯聚在一個平臺,通過容器技術,在容器云平臺上構建大數據與人工智能基礎公共能力,將人工智能、大數據與云計算進行融合。

  目前,星環科技的產品覆蓋了20多個行業,金融、政府、能源、交通、制造、教育這些行業都有覆蓋到,客戶數量也是在快速增長,細分行業的市場份額超過70%。

  針對星環科技去Hadoop,自研技術架構,i黑馬&數字觀察也詢問了不少技術型投資人以及相關技術專家,有疑問是可能性是有,但是生態如何建立?

  其實星環科技早就開始生態建設,今年,星環科技提出堅持“平臺+生態”規模化發展戰略,構建“數據驅動”的大生態。此次融資后也會在生態上加大投入,推動更多行業深入使用大數據、AI和云計算技術,著力推進與生態伙伴的合作深度與廣度,打造全新的生態體系。

  “一個公司要想獨立發展,要能夠基業長青,就不能建立在別人的成果基礎上,一定要自己創造出來,創新的東西才能保持公司的長期存在。具有前瞻性的技術引領者一向是會面對很多質疑的,但時間會給出證明。我也堅信,星環科技會成為世界級的偉大的基礎軟件公司,我們也在不斷為此努力。”孫元浩針對外界疑問回應到。

免責聲明: IT商業新聞網遵守行業規則,本站所轉載的稿件都標注作者和來源。 IT商業新聞網原創文章,請轉載時務必注明文章作者和來源“IT商業新聞網”, 不尊重本站原創的行為將受到IT商業新聞網的追責,轉載稿件或作者投稿可能會經編輯修改或者補充, 如有異議可投訴至:[email protected]
微信公眾號:您想你獲取IT商業新聞網最新原創內容, 請在微信公眾號中搜索“IT商業網”或者搜索微信號:itxinwen,或用掃描左側微信二維碼。 即可添加關注。
標簽:

品牌、內容合作請點這里: 尋求合作 ??

相關閱讀RELEVANT

led篮球比分牌