正在播放国产一区_亚洲精品字幕在线观看|HD中文字幕在线播放,少妇莹莹的放荡生活,日韩欧美综合一区,国产欧美一区二区三区96精品

EN

把用戶寵上天的金數據,用AI Agent攻克企業培訓考試難題

2025-04-08

知識經濟時代,無論是“以考代學”的企業培訓,還是運營活動的互動手段,考試的需求始終旺盛。“傳統考試存在很多難點,比如出題環節復雜,配置考試繁瑣,閱卷工作耗時耗力。AI的出現,讓我們看到了優化考試的可能性。”明略科技旗下金數據產品工程師、快出題技術負責人周藝說。

2024年3月,金數據推出了聚焦考試場景的首款AI產品——快出題”。用戶上傳不限內容、格式的文件,快出題能夠快速出題,并發布考試。短短一年,快出題已服務數萬名用戶,廣受好評。隨著產品能力的逐步提升,金數據提出了“萬物皆可考”的理念。這背后是基于市場需求的持續迭代,用金數據自己的話說,就是“主打一個寵粉”。

“快出題”如何在技術與需求間找到了最優解,如何通過AI Agent爆改傳統考試?以下來自金數據“快出題”技術負責人周藝的分享節選。

把用戶寵上天的金數據,用AI Agent攻克企業培訓考試難題

01

從0到1打造新產品,客戶需求是第一驅動力

快出題的能力,首先是出題,AI組件能夠快速從已有的題庫中抽取題目,生成一份試卷,并且支持AI閱卷;其次是提供練習模式,尤其適用于企業培訓場景,用戶也可以導出試卷,方便在線下組織考試;最后還提供出題API,如果企業有自己的考試系統,可以通過快出題的API將出好的題目導入到自己的系統里。

在快出題的迭代過程中,我們經歷了“金數據考試——AI考試——快出題”三個階段。其實快出題最初是為金數據表單中有考試場景需求的用戶設計的,但金數據表單主要用于數據收集,在考試場景存在一些先天的不足,比如難以支持大型題庫,也不支持練習模式。于是,我們當時開發了一個無論在操作體驗,還是流暢度上都表現出色的考試編輯器。然而,我們發現幾乎沒有人使用。為什么呢?因為導入題庫這件事太難了。

我們最早發布的內測版本中,導入題庫需要用戶按指定的 Excel 模版上傳題庫,操作繁瑣且出錯概率極高,基本上用戶都卡在了這一步。怎么辦?當然是寵粉!用戶居然導入不進來,我們就幫他解決這個問題,于是我們推出了第一個AI功能—— 通過AI導入題庫 。用戶上傳任意格式的題庫文件,我們都能用AI解析其中的題目,并格式化成題庫供用戶使用。

但隨后我們又發現了一個問題:許多用戶根本沒有題庫,而是直接將他們的資料文檔當作題庫上傳。為了滿足用戶需求,我們開發了 基于資料庫生成題庫 的功能,只要用戶有文檔資料,我們就能幫助他們生成題目。

后來一些用戶告訴我們,想用我們的產品做企業培訓,但并沒有成型的資料。怎么辦?我們依然是主打一個寵粉!于是,我們又推出了一個功能—— 基于一句話出題 。用戶只需輸入需求,我們就能生成一套考試題目,到了這一步,基本上用戶只要進來就能用起來。但有些用戶開始反饋說,哎,你們生成的結果好像不太對。

問題出在哪里呢?我們都知道大模型有一個“幻覺”問題。當資料不足時,大模型就會編造一些虛假事實。當時有一位用戶反饋,在我們的一句話出題功能中出了關于網絡熱梗“成都迪士尼”的題目。出題時,AI誤以為成都真的要建迪士尼,于是生成了許多關于成都迪士尼門票、項目相關的題目,這顯然不是用戶想要的。

后來我們通過聯網搜索的方式,確保了生成的題目準確無誤。至此,我們的產品基本完成,去年3月25日上線時,我們將產品正式命名為金數據AI考試,并基于AI出題開發了一系列功能。

把用戶寵上天的金數據,用AI Agent攻克企業培訓考試難題

在推廣過程中,我們發現,用戶在嘗試一句話生成題目時,往往會想到生成數學題或語文題,而提示詞工程在K12學科方面的出題表現并不理想。后來,我們嘗試了COT,即通過構建一個復雜且包含大量示例的提示詞,一步步引導AI完成復雜任務。簡單來說,就是教會AI如何“工作”。與此同時,我們開始研究老師是如何出題的。通過研究大量文獻,形成專門的提示詞,在大模型上進行反復嘗試,最終找到了最優解。不僅適用于K12出題,還可以用于各種職業資格考試,如司法考試、會計考試、建造師/建筑師考試等,從而真正實現了“萬物皆可考”。

把用戶寵上天的金數據,用AI Agent攻克企業培訓考試難題

02

借力AI Agent升級,聚焦大企業“出題”痛點

接下來,我們面臨了一個新的挑戰:一些大型企業用戶已經擁有自己的考試系統,但非常認可金數據的出題能力,問我們能否通過API將金數據的出題能力集成到他們自己的系統里。于是,我們開始著手構建對外開放的API。

當時,為了快速開發,我們所有的提示詞工程都是在我們的Ruby項目里完成的。選擇Ruby的原因主要有兩個:一方面,金數據本身就主張使用Ruby;另一方面,金數據在Ruby社區中處于頂尖水平,我們對駕馭這個技術棧非常有信心。

然而,隨著技術功能的不斷迭代,我們逐漸發現Ruby生態的不足。由于缺乏豐富的生態支持,在Ruby上很難進行快速調試和問題追蹤,代碼編寫也缺乏一定的規范性。如果要開發一個對外的API,并滿足用戶的私有化定制需求,難度極大。因此,我們痛定思痛,決定將所有的AI應用模型從Ruby中遷移出來,切換到LangChain,擁抱Lang圈生態,簡化后續的維護和開發工作。

我們也對比了其他解決方案,例如Defy、LlamIndex、Mastra等,但它們都存在各自的問題。最終,我們選擇了LangChain作為技術方案。完成遷移后,我們發現開發API變得非常快速且易于實現。

在開發對外API的過程中,我們還進一步認識到,許多用戶已經有了自己的考試系統,更需要我們幫助他們完成出題環節。于是,我們從市場需求出發,對產品方向進行了調整,從“金數據AI考試”進化為“快出題”,適當降低了考試功能的比重,專注于提升出題能力。

技術側的創新嘗試為我們帶來了顯著的改進:

首先,我們引入了LangGraph,它是LangChain生態中專門用于Agent編排和Workflow組織的工具。我們可以借此構建更為復雜的AI應用。

以一句話出題功能為例,此前它是通過單一的Prompt加上一些輸入、輸出檢查實現的單一Agent。改進后,我們將出題過程拆分成多個部分,每個部分由一個 Agent 單獨完成,所以出題就變成了多個 Agents 的協同工作。Analyzer 先分析用戶意圖,Retriever 檢索相關資料,在取得意圖和資料后交由 Generator 出題,出題完成后 Validator 會檢查題目質量,如果不合格會要求 Generator 改進,最后將結果呈現給用戶。經過這一系列改進,一句話出題的效果顯著增強,包括題目的深度、難度、受眾語氣,甚至還能增加趣味性。比如,模擬林黛玉的語言風格出一套春節拜年題,在過去是無法實現的,現在的題目則變得更加靈活、有新意,進一步拓展了使用場景。

在知識庫出題方面,我們也進行了優化,將之前的線性生成改為并行處理。我們增加了一個Planner,它可以將一個任務拆分成多個小任務,每個小任務分配一個 Generator 執行,生成完成后,由一個專門的 Picker Agent 從結果中挑選出優質內容,最終形成一個題庫呈現給用戶。這一提升首先體現在速度上,生成100道題,僅需30秒;其次是穩定性,不會因為輸出過長,導致大模型降智。無論出多少題,質量都能得到保證。

其次,我們引入了一個大模型監測平臺LangFuse,它帶來了兩個顯著優勢:一方面,我們可以對所有任務進行Trace,便于跟蹤和調試,從而提升研發效率;另一方面,金數據旗下還有一款名為“浩客”的產品。在快出題生成一套題目后,浩客會彈出一個小窗口,詢問用戶對結果是否滿意。這正是大模型能力測評中非常重要的一部分——用戶反饋。我們可以通過浩克收集到的數據,將生成的任務和用戶對任務的評價關聯起來,我們便能更好地了解改進效果如何,在哪些方面還需要提升。

在AI應用領域,選擇往往比努力更重要。如果我們一開始繼續在Ruby上進行迭代,可能很難實現后面這些能力的提升。

把用戶寵上天的金數據,用AI Agent攻克企業培訓考試難題

03

經驗總結

回顧整個迭代的過程,我們覺得做對了三件事:堅持交互體驗。確保用戶在使用金數據時,不會遇到超過五秒的loading,所有地方都是實時返回結果,迅速給用戶反饋,這樣用戶才更有動力堅持操作,直至看到最終生成的題目;堅持產品驅動。不斷深挖產品使用中的痛點和不足,快速迭代和上線,持續為用戶創造價值;擁抱技術革新。我們不會因為自己在Ruby社區中的地位而固守原有的技術。

與此同時,我們也收獲了三個寶貴的經驗:避免過度優化。在AI調優的過程中,我們曾花費大量精力進行調整,但隨著大模型的升級,之前的優化往往變得不再適用。所以,當我們在大模型或AI應用中遇到棘手問題時,也許等一等是一個更好的選擇;多嘗試、多探索。選對方案往往比努力更重要;辨識用戶的真實需求。我們最初開發考試功能,是因為用戶表示他們需要題庫和組織考試的能力。隨著產品的迭代,最后我們發現,用戶最大的需求其實是出題。

展望未來,我們今年會更多的深耕具體的考試場景,提供更有針對性的優化,以及更專業的服務。在對外開放的API上加大投入,提供更加便捷的接入方式,讓更多用戶接入我們的AI Agent能力。

最近,我們關注到Anthropic提出的MCP(一個框架協議),它可以將產品封裝成一個工具,供其他AI產品調用。這可能是未來AI產品發展的主流趨勢,我們也在積極探索提供快出題的MCP server,以便更好地融入未來的AI生態。

點擊此處開始體驗

信息填寫

*手機號碼:

請選協議