国产精品久久人,国产99久久久,久久久久久毛片免费观看

首頁干貨文章把用戶寵上天的金數(shù)據(jù)，用AI Agent攻克企業(yè)培訓考試難題

把用戶寵上天的金數(shù)據(jù)，用AI Agent攻克企業(yè)培訓考試難題

2025-04-08

知識經(jīng)濟時代，無論是“以考代學”的企業(yè)培訓，還是運營活動的互動手段，考試的需求始終旺盛。“傳統(tǒng)考試存在很多難點，比如出題環(huán)節(jié)復雜，配置考試繁瑣，閱卷工作耗時耗力。AI的出現(xiàn)，讓我們看到了優(yōu)化考試的可能性。”明略科技旗下金數(shù)據(jù)產(chǎn)品工程師、快出題技術負責人周藝說。

2024年3月，金數(shù)據(jù)推出了聚焦考試場景的首款AI產(chǎn)品——“快出題”。用戶上傳不限內(nèi)容、格式的文件，快出題能夠快速出題，并發(fā)布考試。短短一年，快出題已服務數(shù)萬名用戶，廣受好評。隨著產(chǎn)品能力的逐步提升，金數(shù)據(jù)提出了“萬物皆可考”的理念。這背后是基于市場需求的持續(xù)迭代，用金數(shù)據(jù)自己的話說，就是“主打一個寵粉”。

“快出題”如何在技術與需求間找到了最優(yōu)解，如何通過AI Agent爆改傳統(tǒng)考試？以下來自金數(shù)據(jù)“快出題”技術負責人周藝的分享節(jié)選。

把用戶寵上天的金數(shù)據(jù)，用AI Agent攻克企業(yè)培訓考試難題

“快出題”官網(wǎng)界面

01 從0到1打造新產(chǎn)品，客戶需求是第一驅動力

快出題的能力，首先是出題，AI組件能夠快速從已有的題庫中抽取題目，生成一份試卷，并且支持AI閱卷；其次是提供練習模式，尤其適用于企業(yè)培訓場景，用戶也可以導出試卷，方便在線下組織考試；最后還提供出題API，如果企業(yè)有自己的考試系統(tǒng)，可以通過快出題的API將出好的題目導入到自己的系統(tǒng)里。

在快出題的迭代過程中，我們經(jīng)歷了“金數(shù)據(jù)考試——AI考試——快出題”三個階段。其實快出題最初是為金數(shù)據(jù)表單中有考試場景需求的用戶設計的，但金數(shù)據(jù)表單主要用于數(shù)據(jù)收集，在考試場景存在一些先天的不足，比如難以支持大型題庫，也不支持練習模式。于是，我們當時開發(fā)了一個無論在操作體驗，還是流暢度上都表現(xiàn)出色的考試編輯器。然而，我們發(fā)現(xiàn)幾乎沒有人使用。為什么呢？因為導入題庫這件事太難了。

我們最早發(fā)布的內(nèi)測版本中，導入題庫需要用戶按指定的 Excel 模版上傳題庫，操作繁瑣且出錯概率極高，基本上用戶都卡在了這一步。怎么辦？當然是寵粉！用戶居然導入不進來，我們就幫他解決這個問題，于是我們推出了第一個AI功能—— 通過AI導入題庫 。用戶上傳任意格式的題庫文件，我們都能用AI解析其中的題目，并格式化成題庫供用戶使用。

但隨后我們又發(fā)現(xiàn)了一個問題：許多用戶根本沒有題庫，而是直接將他們的資料文檔當作題庫上傳。為了滿足用戶需求，我們開發(fā)了 基于資料庫生成題庫 的功能，只要用戶有文檔資料，我們就能幫助他們生成題目。

后來一些用戶告訴我們，想用我們的產(chǎn)品做企業(yè)培訓，但并沒有成型的資料。怎么辦？我們依然是主打一個寵粉！于是，我們又推出了一個功能—— 基于一句話出題 。用戶只需輸入需求，我們就能生成一套考試題目，到了這一步，基本上用戶只要進來就能用起來。但有些用戶開始反饋說，哎，你們生成的結果好像不太對。

問題出在哪里呢？我們都知道大模型有一個“幻覺”問題。當資料不足時，大模型就會編造一些虛假事實。當時有一位用戶反饋，在我們的一句話出題功能中出了關于網(wǎng)絡熱梗“成都迪士尼”的題目。出題時，AI誤以為成都真的要建迪士尼，于是生成了許多關于成都迪士尼門票、項目相關的題目，這顯然不是用戶想要的。

后來我們通過聯(lián)網(wǎng)搜索的方式，確保了生成的題目準確無誤。至此，我們的產(chǎn)品基本完成，去年3月25日上線時，我們將產(chǎn)品正式命名為金數(shù)據(jù)AI考試，并基于AI出題開發(fā)了一系列功能。

在推廣過程中，我們發(fā)現(xiàn)，用戶在嘗試一句話生成題目時，往往會想到生成數(shù)學題或語文題，而提示詞工程在K12學科方面的出題表現(xiàn)并不理想。后來，我們嘗試了COT，即通過構建一個復雜且包含大量示例的提示詞，一步步引導AI完成復雜任務。簡單來說，就是教會AI如何“工作”。與此同時，我們開始研究老師是如何出題的。通過研究大量文獻，形成專門的提示詞，在大模型上進行反復嘗試，最終找到了最優(yōu)解。不僅適用于K12出題，還可以用于各種職業(yè)資格考試，如司法考試、會計考試、建造師/建筑師考試等，從而真正實現(xiàn)了“萬物皆可考”。

02 借力AI Agent升級，聚焦大企業(yè)“出題”痛點

接下來，我們面臨了一個新的挑戰(zhàn)：一些大型企業(yè)用戶已經(jīng)擁有自己的考試系統(tǒng)，但非常認可金數(shù)據(jù)的出題能力，問我們能否通過API將金數(shù)據(jù)的出題能力集成到他們自己的系統(tǒng)里。于是，我們開始著手構建對外開放的API。

當時，為了快速開發(fā)，我們所有的提示詞工程都是在我們的Ruby項目里完成的。選擇Ruby的原因主要有兩個：一方面，金數(shù)據(jù)本身就主張使用Ruby；另一方面，金數(shù)據(jù)在Ruby社區(qū)中處于頂尖水平，我們對駕馭這個技術棧非常有信心。

然而，隨著技術功能的不斷迭代，我們逐漸發(fā)現(xiàn)Ruby生態(tài)的不足。由于缺乏豐富的生態(tài)支持，在Ruby上很難進行快速調(diào)試和問題追蹤，代碼編寫也缺乏一定的規(guī)范性。如果要開發(fā)一個對外的API，并滿足用戶的私有化定制需求，難度極大。因此，我們痛定思痛，決定將所有的AI應用模型從Ruby中遷移出來，切換到LangChain，擁抱Lang圈生態(tài)，簡化后續(xù)的維護和開發(fā)工作。

我們也對比了其他解決方案，例如Defy、LlamIndex、Mastra等，但它們都存在各自的問題。最終，我們選擇了LangChain作為技術方案。完成遷移后，我們發(fā)現(xiàn)開發(fā)API變得非常快速且易于實現(xiàn)。

在開發(fā)對外API的過程中，我們還進一步認識到，許多用戶已經(jīng)有了自己的考試系統(tǒng)，更需要我們幫助他們完成出題環(huán)節(jié)。于是，我們從市場需求出發(fā)，對產(chǎn)品方向進行了調(diào)整，從“金數(shù)據(jù)AI考試”進化為“快出題”，適當降低了考試功能的比重，專注于提升出題能力。

技術側的創(chuàng)新嘗試為我們帶來了顯著的改進：

首先，我們引入了LangGraph，它是LangChain生態(tài)中專門用于Agent編排和Workflow組織的工具。我們可以借此構建更為復雜的AI應用。

以一句話出題功能為例，此前它是通過單一的Prompt加上一些輸入、輸出檢查實現(xiàn)的單一Agent。改進后，我們將出題過程拆分成多個部分，每個部分由一個 Agent 單獨完成，所以出題就變成了多個 Agents 的協(xié)同工作。Analyzer 先分析用戶意圖，Retriever 檢索相關資料，在取得意圖和資料后交由 Generator 出題，出題完成后 Validator 會檢查題目質量，如果不合格會要求 Generator 改進，最后將結果呈現(xiàn)給用戶。經(jīng)過這一系列改進，一句話出題的效果顯著增強，包括題目的深度、難度、受眾語氣，甚至還能增加趣味性。比如，模擬林黛玉的語言風格出一套春節(jié)拜年題，在過去是無法實現(xiàn)的，現(xiàn)在的題目則變得更加靈活、有新意，進一步拓展了使用場景。

在知識庫出題方面，我們也進行了優(yōu)化，將之前的線性生成改為并行處理。我們增加了一個Planner，它可以將一個任務拆分成多個小任務，每個小任務分配一個 Generator 執(zhí)行，生成完成后，由一個專門的 Picker Agent 從結果中挑選出優(yōu)質內(nèi)容，最終形成一個題庫呈現(xiàn)給用戶。這一提升首先體現(xiàn)在速度上，生成100道題，僅需30秒；其次是穩(wěn)定性，不會因為輸出過長，導致大模型降智。無論出多少題，質量都能得到保證。

其次，我們引入了一個大模型監(jiān)測平臺LangFuse，它帶來了兩個顯著優(yōu)勢：一方面，我們可以對所有任務進行Trace，便于跟蹤和調(diào)試，從而提升研發(fā)效率；另一方面，金數(shù)據(jù)旗下還有一款名為“浩客”的產(chǎn)品。在快出題生成一套題目后，浩客會彈出一個小窗口，詢問用戶對結果是否滿意。這正是大模型能力測評中非常重要的一部分——用戶反饋。我們可以通過浩克收集到的數(shù)據(jù)，將生成的任務和用戶對任務的評價關聯(lián)起來，我們便能更好地了解改進效果如何，在哪些方面還需要提升。

在AI應用領域，選擇往往比努力更重要。如果我們一開始繼續(xù)在Ruby上進行迭代，可能很難實現(xiàn)后面這些能力的提升。

03 經(jīng)驗總結

回顧整個迭代的過程，我們覺得做對了三件事：堅持交互體驗。確保用戶在使用金數(shù)據(jù)時，不會遇到超過五秒的loading，所有地方都是實時返回結果，迅速給用戶反饋，這樣用戶才更有動力堅持操作，直至看到最終生成的題目；堅持產(chǎn)品驅動。不斷深挖產(chǎn)品使用中的痛點和不足，快速迭代和上線，持續(xù)為用戶創(chuàng)造價值；擁抱技術革新。我們不會因為自己在Ruby社區(qū)中的地位而固守原有的技術。

與此同時，我們也收獲了三個寶貴的經(jīng)驗：避免過度優(yōu)化。在AI調(diào)優(yōu)的過程中，我們曾花費大量精力進行調(diào)整，但隨著大模型的升級，之前的優(yōu)化往往變得不再適用。所以，當我們在大模型或AI應用中遇到棘手問題時，也許等一等是一個更好的選擇；多嘗試、多探索。選對方案往往比努力更重要；辨識用戶的真實需求。我們最初開發(fā)考試功能，是因為用戶表示他們需要題庫和組織考試的能力。隨著產(chǎn)品的迭代，最后我們發(fā)現(xiàn)，用戶最大的需求其實是出題。

展望未來，我們今年會更多的深耕具體的考試場景，提供更有針對性的優(yōu)化，以及更專業(yè)的服務。在對外開放的API上加大投入，提供更加便捷的接入方式，讓更多用戶接入我們的AI Agent能力。

最近，我們關注到Anthropic提出的MCP（一個框架協(xié)議），它可以將產(chǎn)品封裝成一個工具，供其他AI產(chǎn)品調(diào)用。這可能是未來AI產(chǎn)品發(fā)展的主流趨勢，我們也在積極探索提供快出題的MCP server，以便更好地融入未來的AI生態(tài)。

點擊此處開始體驗～

正在播放国产一区_亚洲精品字幕在线观看|HD中文字幕在线播放,少妇莹莹的放荡生活,日韩欧美综合一区,国产欧美一区二区三区96精品

01

從0到1打造新產(chǎn)品，客戶需求是第一驅動力

02

借力AI Agent升級，聚焦大企業(yè)“出題”痛點

03

經(jīng)驗總結