
一年前,Databricks以13億美元收購MosaicML。現在,這個平台已成為Databricks AI解決方案的重要組成部分,重新命名為Mosaic AI。今天,在公司的Data + AI Summit上,它推出了服務的多項新功能。在公告之前,我與Databricks的聯合創始人兼CEO Ali Ghodsi和CTO Matei Zaharia進行了交談。
Databricks在其會議上推出了五種新的Mosaic AI工具:Mosaic AI Agent Framework、Mosaic AI Agent Evaluation、Mosaic AI Tools Catalog、Mosaic AI Model Training和Mosaic AI Gateway。
“這是一個令人興奮的一年 - 通用AI有了巨大的進展。每個人都對此感到興奮,”Ghodsi告訴我。“但每個人關心的仍然是相同的三件事:我們如何提高這些模型的質量或可靠性?第二,我們如何確保成本效益?在這裡的模型之間成本差異巨大 - 價格上有巨大的幾個數量級的差異。第三,我們如何在保持數據隱私的同時實現這一點?”
今天的推出旨在覆蓋Databricks客戶的大多數關注點。
Zaharia還指出,現在將大型語言模型(LLMs)部署到生產中的企業正在使用具有多個組件的系統。這通常意味著它們對模型(或者也可能對多個模型)進行多次調用,並使用各種外部工具來訪問數據庫或進行檢索增強生成(RAG)。這些複合系統加速了基於LLM的應用,通過使用更便宜的模型來節省成本進行特定查詢或緩存結果,並且通過使用專有數據增加了結果的可信度和相關性。
“我們認為這是真正高影響、使命必達的AI應用的未來,”他解釋說。“因為如果您想一想,如果您在做一些真正使命必達的事情,您會希望工程師能夠控制其所有方面 - 而您通過模塊化系統實現這一點。因此,我們正在進行許多基本研究,探討創建特定任務的最佳系統的最佳方法,使開發人員能夠輕鬆使用這些系統,並將所有部分連接起來,跟踪所有事項,並查看正在發生的事情。”
至於實際構建這些系統,Databricks本週推出了兩個服務:Mosaic AI Agent Framework和Mosaic AI Tools Catalog。AI Agent Framework採用了該公司的無服務器向量搜索功能,該功能上個月已經普遍可用,並為開發人員提供了在其中構建自己的基於RAG的應用程序的工具。
Ghodsi和Zaharia強調,Databricks的向量搜索系統使用了混合方法,將傳統基於關鍵字的搜索與嵌入式搜索相結合。這兩個平台上的所有數據都與Databricks數據湖密切集成,並且兩者的數據始終自動保持同步。這包括整個Databricks平台的治理功能 - 特別是Databricks Unity Catalog治理層 - 以確保,例如,個人信息不會洩漏到向量搜索服務中。
談到Unity Catalog(該公司現在也在逐漸開源),值得注意的是,Databricks現在正在擴展此系統,讓企業管理LLMs在生成答案時可以調用哪些AI工具和功能。Databricks表示,這個目錄還將使這些服務在公司內更易於發現。
Ghodsi還強調,開發人員現在可以使用所有這些工具來構建自己的代理,例如使用Langchain或LlamaIndex鏈接模型和功能。的確,Zaharia告訴我,許多Databricks客戶今天已經在使用這些工具。
“很多公司正在使用這些東西,即使是類似代理的工作流程。我認為人們對這裡進行的使用數量往往感到驚訝,但這似乎是事情的走向。而且我們在內部的AI應用程序中,例如我們平台的助理應用程序,也發現這是構建它們的方法,”他說。
為了評估這些新應用程序,Databricks還推出了Mosaic AI Agent Evaluation,這是一個人工智能輔助評估工具,結合了基於LLM的評審來測試人工智能在生產中的表現,但也允許企業快速從用戶那里獲得反饋(並讓他們為一些初始數據集標記)。品質實驗室包括基於該公司今年早些時候收購的Lilac的UI組件,該組件允許用戶可視化和搜索大量文本數據集。
“我們的每個客戶都說:我確實需要在內部進行一些標記,我將讓一些員工進行標記。我可能僅需要100個答案,或者可能需要500個答案 - 然後我們可以將其餵入LLM審判員,”Ghodsi解釋說。
另一種改進結果的方法是使用微調模型。為此,Databricks現在提供了Mosaic AI Model Training服務,允許用戶使用其組織的私有數據對模型進行微調,以幫助它們在特定任務上表現更好。
最後一個新工具是Mosaic AI Gateway,該公司將其描述為“統一的界面,用於查詢、管理和部署任何開源或專有模型”。這裡的想法是允許用戶以受控的方式查詢任何LLM,並使用集中的憑證存儲。毫無疑問,任何企業都不希望其工程師向第三方服務發送隨機數據。
在緊縮預算的時候,AI Gateway還允許IT為不同供應商設置速率限制,以保持成本可控。此外,這些企業還會獲得用於調試這些系統的使用跟踪和追踪。
正如Ghodsi告訴我的那樣,所有這些新功能都是對Databricks用戶如何使用LLMs做出的反應。“我們在過去的一年半中看到了市場發生了重大變化。去年初,與之交談的任何人都會說:我們支持開源,開源很棒。但當您真正迫使人們時,他們正在使用Open AI。無論人們說了什么,無論他們有多麼大力宣傳開源有多棒,幕后,他們都在使用Open AI。”現在,這些客戶變得更加複雜,並使用開放模型(當然很少真正是開源的),這要求他們採用全新的工具來應對隨之而來的問題 - 和機會。