一本色综合亚洲精品,久久一级片,特级全黄久久久久久久久

首頁干貨文章把用戶寵上天的金數據，用AI Agent攻克企業培訓考試難題

把用戶寵上天的金數據，用AI Agent攻克企業培訓考試難題

2025-04-08

知識經濟時代，無論是“以考代學”的企業培訓，還是運營活動的互動手段，考試的需求始終旺盛。“傳統考試存在很多難點，比如出題環節復雜，配置考試繁瑣，閱卷工作耗時耗力。AI的出現，讓我們看到了優化考試的可能性。”明略科技旗下金數據產品工程師、快出題技術負責人周藝說。

2024年3月，金數據推出了聚焦考試場景的首款AI產品——“快出題”。用戶上傳不限內容、格式的文件，快出題能夠快速出題，并發布考試。短短一年，快出題已服務數萬名用戶，廣受好評。隨著產品能力的逐步提升，金數據提出了“萬物皆可考”的理念。這背后是基于市場需求的持續迭代，用金數據自己的話說，就是“主打一個寵粉”。

“快出題”如何在技術與需求間找到了最優解，如何通過AI Agent爆改傳統考試？以下來自金數據“快出題”技術負責人周藝的分享節選。

“快出題”官網界面

01 從0到1打造新產品，客戶需求是第一驅動力

快出題的能力，首先是出題，AI組件能夠快速從已有的題庫中抽取題目，生成一份試卷，并且支持AI閱卷；其次是提供練習模式，尤其適用于企業培訓場景，用戶也可以導出試卷，方便在線下組織考試；最后還提供出題API，如果企業有自己的考試系統，可以通過快出題的API將出好的題目導入到自己的系統里。

在快出題的迭代過程中，我們經歷了“金數據考試——AI考試——快出題”三個階段。其實快出題最初是為金數據表單中有考試場景需求的用戶設計的，但金數據表單主要用于數據收集，在考試場景存在一些先天的不足，比如難以支持大型題庫，也不支持練習模式。于是，我們當時開發了一個無論在操作體驗，還是流暢度上都表現出色的考試編輯器。然而，我們發現幾乎沒有人使用。為什么呢？因為導入題庫這件事太難了。

我們最早發布的內測版本中，導入題庫需要用戶按指定的 Excel 模版上傳題庫，操作繁瑣且出錯概率極高，基本上用戶都卡在了這一步。怎么辦？當然是寵粉！用戶居然導入不進來，我們就幫他解決這個問題，于是我們推出了第一個AI功能—— 通過AI導入題庫 。用戶上傳任意格式的題庫文件，我們都能用AI解析其中的題目，并格式化成題庫供用戶使用。

但隨后我們又發現了一個問題：許多用戶根本沒有題庫，而是直接將他們的資料文檔當作題庫上傳。為了滿足用戶需求，我們開發了 基于資料庫生成題庫 的功能，只要用戶有文檔資料，我們就能幫助他們生成題目。

后來一些用戶告訴我們，想用我們的產品做企業培訓，但并沒有成型的資料。怎么辦？我們依然是主打一個寵粉！于是，我們又推出了一個功能—— 基于一句話出題 。用戶只需輸入需求，我們就能生成一套考試題目，到了這一步，基本上用戶只要進來就能用起來。但有些用戶開始反饋說，哎，你們生成的結果好像不太對。

問題出在哪里呢？我們都知道大模型有一個“幻覺”問題。當資料不足時，大模型就會編造一些虛假事實。當時有一位用戶反饋，在我們的一句話出題功能中出了關于網絡熱梗“成都迪士尼”的題目。出題時，AI誤以為成都真的要建迪士尼，于是生成了許多關于成都迪士尼門票、項目相關的題目，這顯然不是用戶想要的。

后來我們通過聯網搜索的方式，確保了生成的題目準確無誤。至此，我們的產品基本完成，去年3月25日上線時，我們將產品正式命名為金數據AI考試，并基于AI出題開發了一系列功能。

在推廣過程中，我們發現，用戶在嘗試一句話生成題目時，往往會想到生成數學題或語文題，而提示詞工程在K12學科方面的出題表現并不理想。后來，我們嘗試了COT，即通過構建一個復雜且包含大量示例的提示詞，一步步引導AI完成復雜任務。簡單來說，就是教會AI如何“工作”。與此同時，我們開始研究老師是如何出題的。通過研究大量文獻，形成專門的提示詞，在大模型上進行反復嘗試，最終找到了最優解。不僅適用于K12出題，還可以用于各種職業資格考試，如司法考試、會計考試、建造師/建筑師考試等，從而真正實現了“萬物皆可考”。

02 借力AI Agent升級，聚焦大企業“出題”痛點

接下來，我們面臨了一個新的挑戰：一些大型企業用戶已經擁有自己的考試系統，但非常認可金數據的出題能力，問我們能否通過API將金數據的出題能力集成到他們自己的系統里。于是，我們開始著手構建對外開放的API。

當時，為了快速開發，我們所有的提示詞工程都是在我們的Ruby項目里完成的。選擇Ruby的原因主要有兩個：一方面，金數據本身就主張使用Ruby；另一方面，金數據在Ruby社區中處于頂尖水平，我們對駕馭這個技術棧非常有信心。

然而，隨著技術功能的不斷迭代，我們逐漸發現Ruby生態的不足。由于缺乏豐富的生態支持，在Ruby上很難進行快速調試和問題追蹤，代碼編寫也缺乏一定的規范性。如果要開發一個對外的API，并滿足用戶的私有化定制需求，難度極大。因此，我們痛定思痛，決定將所有的AI應用模型從Ruby中遷移出來，切換到LangChain，擁抱Lang圈生態，簡化后續的維護和開發工作。

我們也對比了其他解決方案，例如Defy、LlamIndex、Mastra等，但它們都存在各自的問題。最終，我們選擇了LangChain作為技術方案。完成遷移后，我們發現開發API變得非常快速且易于實現。

在開發對外API的過程中，我們還進一步認識到，許多用戶已經有了自己的考試系統，更需要我們幫助他們完成出題環節。于是，我們從市場需求出發，對產品方向進行了調整，從“金數據AI考試”進化為“快出題”，適當降低了考試功能的比重，專注于提升出題能力。

技術側的創新嘗試為我們帶來了顯著的改進：

首先，我們引入了LangGraph，它是LangChain生態中專門用于Agent編排和Workflow組織的工具。我們可以借此構建更為復雜的AI應用。

以一句話出題功能為例，此前它是通過單一的Prompt加上一些輸入、輸出檢查實現的單一Agent。改進后，我們將出題過程拆分成多個部分，每個部分由一個 Agent 單獨完成，所以出題就變成了多個 Agents 的協同工作。Analyzer 先分析用戶意圖，Retriever 檢索相關資料，在取得意圖和資料后交由 Generator 出題，出題完成后 Validator 會檢查題目質量，如果不合格會要求 Generator 改進，最后將結果呈現給用戶。經過這一系列改進，一句話出題的效果顯著增強，包括題目的深度、難度、受眾語氣，甚至還能增加趣味性。比如，模擬林黛玉的語言風格出一套春節拜年題，在過去是無法實現的，現在的題目則變得更加靈活、有新意，進一步拓展了使用場景。

在知識庫出題方面，我們也進行了優化，將之前的線性生成改為并行處理。我們增加了一個Planner，它可以將一個任務拆分成多個小任務，每個小任務分配一個 Generator 執行，生成完成后，由一個專門的 Picker Agent 從結果中挑選出優質內容，最終形成一個題庫呈現給用戶。這一提升首先體現在速度上，生成100道題，僅需30秒；其次是穩定性，不會因為輸出過長，導致大模型降智。無論出多少題，質量都能得到保證。

其次，我們引入了一個大模型監測平臺LangFuse，它帶來了兩個顯著優勢：一方面，我們可以對所有任務進行Trace，便于跟蹤和調試，從而提升研發效率；另一方面，金數據旗下還有一款名為“浩客”的產品。在快出題生成一套題目后，浩客會彈出一個小窗口，詢問用戶對結果是否滿意。這正是大模型能力測評中非常重要的一部分——用戶反饋。我們可以通過浩克收集到的數據，將生成的任務和用戶對任務的評價關聯起來，我們便能更好地了解改進效果如何，在哪些方面還需要提升。

在AI應用領域，選擇往往比努力更重要。如果我們一開始繼續在Ruby上進行迭代，可能很難實現后面這些能力的提升。

03 經驗總結

回顧整個迭代的過程，我們覺得做對了三件事：堅持交互體驗。確保用戶在使用金數據時，不會遇到超過五秒的loading，所有地方都是實時返回結果，迅速給用戶反饋，這樣用戶才更有動力堅持操作，直至看到最終生成的題目；堅持產品驅動。不斷深挖產品使用中的痛點和不足，快速迭代和上線，持續為用戶創造價值；擁抱技術革新。我們不會因為自己在Ruby社區中的地位而固守原有的技術。

與此同時，我們也收獲了三個寶貴的經驗：避免過度優化。在AI調優的過程中，我們曾花費大量精力進行調整，但隨著大模型的升級，之前的優化往往變得不再適用。所以，當我們在大模型或AI應用中遇到棘手問題時，也許等一等是一個更好的選擇；多嘗試、多探索。選對方案往往比努力更重要；辨識用戶的真實需求。我們最初開發考試功能，是因為用戶表示他們需要題庫和組織考試的能力。隨著產品的迭代，最后我們發現，用戶最大的需求其實是出題。

展望未來，我們今年會更多的深耕具體的考試場景，提供更有針對性的優化，以及更專業的服務。在對外開放的API上加大投入，提供更加便捷的接入方式，讓更多用戶接入我們的AI Agent能力。

最近，我們關注到Anthropic提出的MCP（一個框架協議），它可以將產品封裝成一個工具，供其他AI產品調用。這可能是未來AI產品發展的主流趨勢，我們也在積極探索提供快出題的MCP server，以便更好地融入未來的AI生態。

點擊此處開始體驗～

正在播放国产一区_亚洲精品字幕在线观看|HD中文字幕在线播放,少妇莹莹的放荡生活,日韩欧美综合一区,国产欧美一区二区三区96精品

01

從0到1打造新產品，客戶需求是第一驅動力

02

借力AI Agent升級，聚焦大企業“出題”痛點

03

經驗總結