近日,濤思數(shù)據(jù)線上正式發(fā)布 TDengine IDMP,一款 AI 原生的物聯(lián)網(wǎng)、工業(yè)數(shù)據(jù)管理平臺。這是我在時序數(shù)據(jù)庫上專注耕耘八年之后,推出的第二款產(chǎn)品。今天一早起來,看到各種留言,以及后臺看到的下載量與注冊用戶數(shù),我異常興奮,覺得自己作為一個程序員,在 AI 時代不僅不會被替代,而是找到了可以再戰(zhàn)八年的巨大機會。開發(fā)這款產(chǎn)品是繼我 2019 年將 TDengine 核心代碼開源后的又一重大決定。今天靜下心來,花 2 個小時把我的心路歷程寫下來,分享給眾多的創(chuàng)業(yè)者,特別是想在 AI 浪潮里沖浪一把的程序員們。
2016 年底,我看到萬物互聯(lián)的時代已經(jīng)到來,各行業(yè)需要一個高效的處理海量時序數(shù)據(jù)的引擎,因此創(chuàng)立濤思數(shù)據(jù),并且自己沖到開發(fā)第一線,2 個月就寫下了 1.8 萬行 C 代碼,而且大膽的在 2019 年 7 月將 TDengine 核心代碼開源。八年過去,TDengine 的全球安裝量已經(jīng)超 83 萬套,日安裝量超 700 套,付費客戶超 500 家,遍布全球 60 多個國家和地區(qū),集中在電力、新能源、石油、智能制造、汽車、交通等多個行業(yè),這些數(shù)字讓我相當開心。
海量數(shù)據(jù)有了,然后呢?
但過去幾年,我走訪了中國以及歐美的很多客戶,了解到大家的數(shù)據(jù)量是真的大,比如某個新能源集控中心,測點數(shù)超過 5000 萬,每天產(chǎn)生的數(shù)據(jù)量超過 5 TB。TDengine 時序數(shù)據(jù)庫的高效寫入、高壓縮率的存儲與低延時的查詢很讓客戶滿意,但大家都有一個共同的問題:數(shù)據(jù)已經(jīng)采集和存儲,下一步,怎么把數(shù)據(jù)的價值挖掘出來?我也一直在思考這個問題,希望可以用技術(shù)的方式來幫助大家。作為一個程序員,很直接的想法就是讓 TDengine 提供更好的 SQL 查詢,提供更好的流式計算能力。因此,今年 3 月,我們又推出 TDgpt 時序數(shù)據(jù)分析 AI 智能體,利用 AI 來提供時序數(shù)據(jù)預(yù)測、異常檢測與數(shù)據(jù)補全、分類的服務(wù)。但即便有了這些,用戶依舊還是在問如何挖掘數(shù)據(jù)的價值。
認真分析后,我們發(fā)現(xiàn):最大的問題是業(yè)務(wù)人員與 IT 工程師、數(shù)據(jù)分析師之間存在“代溝”。一方面,業(yè)務(wù)人員需要的是能馬上獲得業(yè)務(wù)的實時洞察,但系統(tǒng)往往只提供固定的報表、看板,每次業(yè)務(wù)人員有什么想法,一定要找 IT 工程師或數(shù)據(jù)分析師先溝通,解釋業(yè)務(wù)的邏輯和需求。另外,因為大多數(shù) IT 工程師不懂業(yè)務(wù)本身,雖然知道怎么用數(shù)據(jù)庫,知道怎么寫 SQL,但要先理解業(yè)務(wù)、理解需求,才能寫出來代碼,因此往往幾天之后才會有分析結(jié)果。一旦分析的結(jié)果不實時,大家對數(shù)據(jù)價值挖掘的興趣就大幅下降。市面上已經(jīng)有不少 BI 工具,通過拖拉拽可以緩解問題,但業(yè)務(wù)人員會直接操作 BI 工具的,比例很小,大多數(shù)還是嚴重依賴數(shù)據(jù)分析師或 IT 工程師。此外還有,業(yè)務(wù)人員的行業(yè)知識和經(jīng)驗積累還不夠,特別是對新的領(lǐng)域,比如新能源,沒有形成系統(tǒng)全面的知識和思考,因此他們也很難提出清晰具體的實時數(shù)據(jù)分析需求。
TDengine 核心代碼在 GitHub 開源
“身上沒有煙味 ……”,無解的局面
作為一個時序數(shù)據(jù)庫廠商,我覺得自己進入了一個無解的局面,因為我比用戶的 IT 工程師更不懂業(yè)務(wù)。當我與卷煙廠的工程師交流時,他們說“你身上都沒有煙味”;當我去油田交流時,我都不知道油井采集了哪些物理量;當我去污水處理廠交流時,他們提到的一些專有名詞我都完全沒聽說過。此外,我還發(fā)現(xiàn),基于數(shù)據(jù)庫做應(yīng)用的廠商多如牛毛,每個行業(yè)都有一批應(yīng)用公司,但沒有一家能做到行業(yè)通吃,因為他們遇到了和我們同樣的問題,對行業(yè)不了解,不具備行業(yè)知識,那自然不會被客戶所接受。
我一直在把 TDengine 時序數(shù)據(jù)庫作為人生最后一個產(chǎn)品在做,在這個細分賽道堅持了 8 年,希望這個產(chǎn)品給自己超過 40 年的程序員生涯畫上一個完美的句號。但基于其產(chǎn)品的特性,行業(yè)知識的壁壘,除非做行業(yè)以及客戶的定制化開發(fā),否則我很難將 TDengine 產(chǎn)品做厚,進軍到應(yīng)用領(lǐng)域。我經(jīng)常給團隊鼓氣,希望濤思數(shù)據(jù)能做到 100 億 RMB 的市值,但其實背后,是我理性的思考,拼命努力做到極致的話,公司市值也就一百億,至多兩百億 RMB。
但這一切,由于 AI 大語言模型,發(fā)生了改變,而且讓我這個 57 歲程序員倒騰的歷史又濃墨重彩的加上了一筆。
一開始,我也想開發(fā)Chat BI
2024 年 8 月,我在美國硅谷與做 Chat BI (對話式商業(yè)智能) 的公司交流,發(fā)現(xiàn)我們完全可以做,至少可以提供自然語言的接口讓用戶不用寫 SQL 來查詢數(shù)據(jù)。但仔細思考,發(fā)現(xiàn) Text to SQL 不是一件容易的事。人類語言靈活、模糊、上下文依賴,而數(shù)據(jù)庫 SQL 語言嚴謹、精確、結(jié)構(gòu)化,兩者之間存在巨大鴻溝。怎么將自然語言中的詞語映射到數(shù)據(jù)庫表名、列名,怎么確認多個表之間的關(guān)系,怎么將不同行業(yè)的業(yè)務(wù)語義匹配到計算函數(shù),而且 SQL 的復(fù)雜性,比如嵌套查詢、聚合函數(shù)、條件表達式等,讓 Text to SQL 生成的準確性大打折扣。此時,我心里想的還是怎么找到頂尖的 AI 人才來解決這些問題。
所幸,我一直關(guān)注研究 Aveva 的產(chǎn)品 PI System,它是一款工業(yè)數(shù)據(jù)管理的軟件,內(nèi)核也是時序數(shù)據(jù)庫,但帶有數(shù)據(jù)采集、可視化、分析、事件管理等功能。不像 TDengine TSDB 更多被集成商所使用,PI 可以交付給最終用戶直接使用,在發(fā)電、電網(wǎng)、石油、化工、制造等行業(yè)有相當大的用戶群。帶著 Text to SQL 的問題,我再看 PI System 的時候,豁然開朗。
我們必須建立數(shù)據(jù)目錄,對于物聯(lián)網(wǎng)、工業(yè)場景而言,最有效的數(shù)據(jù)目錄就是樹狀層次結(jié)構(gòu),不僅讓大家找數(shù)據(jù)資產(chǎn)時方便,而且符合企業(yè)管理的習慣;我們必須做數(shù)據(jù)的標準化,因為系統(tǒng)會對接眾多的數(shù)據(jù)源,每個數(shù)據(jù)源的采集量的名稱、計量單位都不一致,不先標準化,只會讓 Text to SQL難上加難;我們必須做數(shù)據(jù)的情景化,數(shù)據(jù)沒有足夠的描述信息,業(yè)務(wù)上下文和語義,AI 無從幫你。因此我決定參考 PI,把數(shù)據(jù)目錄、數(shù)據(jù)標準化、數(shù)據(jù)情景化做好,并提供工具讓數(shù)據(jù)建模的過程變得簡單高效,把 TDengine 改造為一個 AI-Ready 的數(shù)據(jù)平臺。十月國慶節(jié)一結(jié)束,新的 IDMP ( Industrial Data Management Platform,工業(yè)數(shù)據(jù)管理平臺) 研發(fā)小組正式組建,亞強帶著丁博、秦沖好幾個同學開干了。
IDMP 研發(fā)小組決定用 Java 開發(fā),采用 Quarkus 框架。我是 C 程序員,因此逼迫自己也安裝了整個 Java 開發(fā)環(huán)境,開始寫 Java 程序。作為一家以技術(shù)、以產(chǎn)品立身的公司,我深知,產(chǎn)品必須親自抓。但那個時候,我還是沒有最大程度的投入,因為我覺得 Chat BI 提效了不少,但離問題的完美解決還有差距,因此只是邊做邊思考,想到更多的是利用 IDMP 的開發(fā)倒逼 TDengine TSDB 的開發(fā),比如虛擬表,流式計算重構(gòu)等,目的是讓 TDengine 時序數(shù)據(jù)庫更扎實,功能更強大,更有市場競爭力。
前所未有的機會
春節(jié)期間,DeepSeek 極其火爆,讓我認真思考,作為一家時序數(shù)據(jù)庫公司,我們在 AI 的浪潮里,到底能做什么?一天與搭檔 Steven 討論產(chǎn)品 IDMP 是否內(nèi)嵌 Grafana 做可視化時,我們腦洞大開。我們不應(yīng)該只支持自然語言去創(chuàng)建面板,而是應(yīng)該借助 AI 大語言模型的能力將可視化面板主動推送給用戶,像抖音一樣。對于我們處理的物聯(lián)網(wǎng)、工業(yè)場景,每個行業(yè)都有自己關(guān)心的指標、面板、報表與實時分析,AI 完全可以基于采集數(shù)據(jù)的上下文,智能感知出來是什么業(yè)務(wù)場景。感知場景后,AI 這個超級大腦自然知道應(yīng)該創(chuàng)建哪些典型面板與報表了。我立即用 DeepSeek 做了一些測試,發(fā)現(xiàn)完全可行。我在把自己熟悉的 IT 運維場景,采集的物理量等寫好一個提示詞發(fā)給 DeepSeek 后,它給了我遠超我自己經(jīng)驗的答案。
這一下讓我興奮到了極點,真正的機會來了。
因為如果我們能自動推薦可視化面板、自動創(chuàng)建實時分析任務(wù)給用戶,那就意味著用戶過去要花相當長的時間學習 SQL,學習做報表、面板,更要花時間學習行業(yè)知識,積累行業(yè)的運營經(jīng)驗,現(xiàn)在一概不需要或幾乎不需要了。業(yè)務(wù)洞察不再強依賴于 IT 工程師,不再強依賴于數(shù)據(jù)分析師,甚至不再強依賴于業(yè)務(wù)專家,人人都可以隨時獲得。AI 已經(jīng)能生成精彩的文章、圖片、視頻,甚至 PPT,如果能生成生產(chǎn)運營過程中所需要的可視化面板、報表,創(chuàng)建實時分析報警任務(wù),那就等于將 AI 技術(shù)真正落地到了國計民生的主戰(zhàn)場:工業(yè)場景。無論電力、新能源、石油、石化、智能制造、礦山,還是污水處理,都將迎來跨越式的數(shù)智化轉(zhuǎn)型。特別是對于中國乃至全球的數(shù)百萬家中小企業(yè)而言,相當于瞬間擁有了以前大公司才會有的數(shù)據(jù)分析工具和人才,能基于生產(chǎn)和運營數(shù)據(jù)實時做出最佳的商業(yè)洞察和決策。
這個市場遠超我們已在的時序數(shù)據(jù)庫市場,如果成功,至少可以做到 1000 億 RMB 的規(guī)模。從我三次創(chuàng)業(yè)的經(jīng)驗來看,這個蛋糕實在是太大,太誘惑,對我們團隊而言也可謂是萬事俱備。資金、團隊都不是問題,所要的只是我作為創(chuàng)始人與 CEO 的決心。
AI 驅(qū)動的工業(yè)數(shù)據(jù)管理平臺整體架構(gòu)圖
一路狂奔
因此,我立即回到北京,將公司幾乎所有的研發(fā)資源傾斜過來,全力投入到 IDMP 的研發(fā)中,而且在公司所有的會上強調(diào)“all in AI”。我自己身先士卒,每周七天,平均每天工作 14 個小時,除了無法推脫的客戶交流,將自己的時間全部安排給了新的產(chǎn)品研發(fā),全部投入到了產(chǎn)品定義、產(chǎn)品設(shè)計以及 AI Agent 模塊上。
很快,我們就定出來 AI 驅(qū)動的物聯(lián)網(wǎng)、工業(yè)數(shù)據(jù)平臺的設(shè)計,大家就熱火朝天的干起來。
我是一個注重細節(jié)的人,每個小小圖標,每個頁面的跳轉(zhuǎn),每段小小的提示語,無論中文還是英文,字體字號行距,都會細細琢磨,而且還要做開發(fā)進度、技術(shù)實現(xiàn)難度與細致度的平衡。雖然有 AI 幫助,但它無法代替原創(chuàng)性的思考和設(shè)計。相對于那些老掉牙還在 Windows 上跑的 PI System 以及眾多的工業(yè)實時數(shù)據(jù)庫軟件,以及大堆粗制濫造的工業(yè)互聯(lián)網(wǎng)平臺軟件,我們不僅用 AI 技術(shù)解決了業(yè)務(wù)洞察難以實時獲取的難題,用戶體驗也得到飛躍提升——用戶不必再翻查厚重的手冊,這令我無比自豪。
我自己帶著團隊一路狂奔,唯恐被 Siemens, Schneider, GE, Aveva 這些工業(yè)軟件巨頭搶了先機。在亞強、勝亮、潘魏、王旭、丁博、元湃、營昭等幾十位研發(fā)同學沒日沒夜的努力下,終于在 7 月 29 號發(fā)布了 TDengine IDMP 第一個正式版本 1.0,大家都可以用容器或虛機免費下載體驗,而且為降低體驗的門檻,我們同步推出相應(yīng)的免費云服務(wù)。讓我特別驕傲的是,濤思數(shù)據(jù)是全球第一家推出“無需提問,直接用 AI 自動生成可視化面板、生成實時分析任務(wù)”的公司。
奔跑了半年,終于可以緩一口氣。
當然,這只是 IDMP 的第一個版本,產(chǎn)品后續(xù)還會快速迭代。在今年接下來要發(fā)布的版本中,將會包含我自主設(shè)計的、極具創(chuàng)新性的數(shù)據(jù)模型版本控制功能,同時還會新增一些行業(yè)必需的地圖、組態(tài)等面板功能,以及事件根因分析報告自動生成、事件分析面板、數(shù)據(jù)質(zhì)量報告等功能,并且會支持第三方時序數(shù)據(jù)庫。
無問智推,數(shù)據(jù)消費范式的改變
TDengine 的創(chuàng)新突破與工程技術(shù)落地,正在推動數(shù)據(jù)消費范式的根本性轉(zhuǎn)變(Data Consumption Paradigm Shift)。傳統(tǒng)的數(shù)據(jù)分析模式中,始終是用戶主動發(fā)起請求(比如通過 SQL 查詢),再由系統(tǒng)響應(yīng)并返回結(jié)果。而現(xiàn)在,借助 LLM 與 AI Agent 技術(shù),數(shù)據(jù)能夠?qū)崿F(xiàn) “主動開口”—— 業(yè)務(wù)分析的核心洞察會直接推送給用戶,讓分析模式從 “拉取(Pull)” 徹底轉(zhuǎn)向 “推送(Push)”。這意味著用戶的數(shù)椐消費變成了被動接收,數(shù)據(jù)分析由此邁入 “抖音時代”,門檻被直接降至零。如果說 Chat BI 的 “智能問數(shù)” 是 “有問才答”,那么 TDengine 這種從拉到推的模式,不妨稱之為 “無問智推”。
通過一系列包括數(shù)據(jù)目錄,數(shù)據(jù)標準化和數(shù)據(jù)情景化的基礎(chǔ)性工作,以存儲和計算為核心的數(shù)據(jù)庫被改造成為 AI-Ready 的數(shù)據(jù)平臺。借助 LLM,這個 AI-Ready 的數(shù)據(jù)平臺成為了一個自治的數(shù)據(jù)平臺(Autonomous Data Platform),一個自我驅(qū)動(Self Driving)的實時分析平臺,數(shù)據(jù)自己就能說話,業(yè)務(wù)洞察不再依賴用戶的行業(yè)知識積累和工具使用技能。而因為有了掌握人類所有知識的 LLM 加持,一個 2B 工具,就不會再局限于一個或幾個行業(yè),而是能運用到幾乎所有行業(yè)。這樣,在 AI 的驅(qū)動下,一個優(yōu)秀的 2B 軟件或云服務(wù)將擁有更為廣闊的市場,將把傳統(tǒng)碎片化的市場匯聚起來。
TDengine 將更進一步,將 AI-Ready 的數(shù)據(jù)通過開放的 API 給第三方應(yīng)用提供。它提供的不再是傳統(tǒng)的數(shù)據(jù)庫的 SQL 查詢結(jié)果,而是帶有數(shù)據(jù)業(yè)務(wù)語義、帶有數(shù)據(jù)上下文的 AI-Ready 的查詢結(jié)果,賦能給眾多的 AI 應(yīng)用,讓數(shù)據(jù)的擁有者能最大程度的挖掘出數(shù)據(jù)的價值。
TDengine 的創(chuàng)新與工程實踐只是開了行業(yè)的先河,我相信今后會有很多類似“無問智推”系統(tǒng)的出現(xiàn),并流行起來,數(shù)據(jù)庫以及數(shù)據(jù)基礎(chǔ)設(shè)施在 AI 時代將被重構(gòu),以適應(yīng) AI 應(yīng)用發(fā)展的要求。希望 TDengine 能成為變革后的王者。
有了目標,就能一直跑
在創(chuàng)辦濤思數(shù)據(jù) TDengine 的前三年,我將自己視為產(chǎn)品研發(fā)的核心,寫了太多行程序,解決了太多的 BUG,讓自己在 50 歲的時候居然進入了研發(fā)的巔峰期。但過去的幾年,節(jié)奏開始慢了下來。半年前,當我意識到 AI 技術(shù)能給數(shù)據(jù)庫、數(shù)據(jù)基礎(chǔ)設(shè)施行業(yè)帶來新的重大變革,能解決物聯(lián)網(wǎng)、工業(yè)數(shù)據(jù)處理領(lǐng)域的難題的時候,我一下又回到了巔峰狀態(tài),直接沖到產(chǎn)品研發(fā)的第一線,每天都有用不完的力氣。
2016 年以前我從不跑步,但偶然的原因,跑起步來。而且這一跑就不可收拾,還越跑越快,越跑越遠。第一次跑北京奧森,十公里氣喘吁吁的花了 65 分鐘,現(xiàn)在跑個半馬,只要一小時 55 分。過去的 9 年,我累計跑了至少 2 萬公里,北京到紐約一個來回的距離,我根本沒想到自己還有這樣的潛能。
從我個人的經(jīng)驗來看,做產(chǎn)品研發(fā)與跑步一樣,巔峰不由年齡,而是由夢想和決心來決定。沒有目標,每一步都是負擔,多跑一步都會覺得累;有了目標,每一步都是希望,多跑一步,就多一份喜悅。一旦下決心開發(fā)出一款受人喜愛的產(chǎn)品,年齡不再是問題,你一定會有足夠的精力去投入。
參加北京國際長跑節(jié)半程馬拉松
我堅信,通過 AI 技術(shù)的加持,并充分利用中國巨大的工業(yè)制造市場,再輔以開源、云服務(wù)等手段,我們能將傳統(tǒng)的工業(yè)數(shù)據(jù)管理平臺徹底顛覆。相對于 PI System 以及傳統(tǒng)實時數(shù)據(jù)庫而言,TDengine 展現(xiàn)的是代際優(yōu)勢,一定能將他們逐步淘汰。工業(yè)軟件的世界舞臺,不再只屬于 Siemens, Schneider, GE 等公司,也會有 TDengine 的身影,我們不只是追趕者,而是領(lǐng)航人。
我一直覺得自己很幸運,湖南農(nóng)村長大,但在中國和美國都受到了很好的教育,并且趕上了互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的浪潮,在本該游山玩水的年齡,又倒騰上了時序數(shù)據(jù)庫,居然能有超 80 萬套的安裝量。如今AI浪潮席卷而來,慶幸自己還在牌桌上,而且手里抓的牌還不錯,必須打出精彩。
雖然已經(jīng) 57 歲,寫程序超過 40 年,但繼續(xù)奔跑,再來八年又何妨?Leave a dent in the world!
陶建輝,北京濤思數(shù)據(jù)科技有限公司(TAOS Data)創(chuàng)始人,公司專注時序空間大數(shù)據(jù)的存儲、查詢、分析和計算,不依賴任何開源或第三方軟件,開發(fā)了擁有自主知識產(chǎn)權(quán)、100% 自主可控的 AI 驅(qū)動的物聯(lián)網(wǎng)工業(yè)大數(shù)據(jù)平臺 TDengine。
評論