正在播放国产一区_亚洲精品字幕在线观看|HD中文字幕在线播放,少妇莹莹的放荡生活,日韩欧美综合一区,国产欧美一区二区三区96精品

EN

把用戶寵上天的金數(shù)據(jù),用AI Agent攻克企業(yè)培訓考試難題

2025-04-08

知識經(jīng)濟時代,無論是“以考代學”的企業(yè)培訓,還是運營活動的互動手段,考試的需求始終旺盛。“傳統(tǒng)考試存在很多難點,比如出題環(huán)節(jié)復雜,配置考試繁瑣,閱卷工作耗時耗力。AI的出現(xiàn),讓我們看到了優(yōu)化考試的可能性。”明略科技旗下金數(shù)據(jù)產(chǎn)品工程師、快出題技術負責人周藝說。

2024年3月,金數(shù)據(jù)推出了聚焦考試場景的首款AI產(chǎn)品——快出題”。用戶上傳不限內(nèi)容、格式的文件,快出題能夠快速出題,并發(fā)布考試。短短一年,快出題已服務數(shù)萬名用戶,廣受好評。隨著產(chǎn)品能力的逐步提升,金數(shù)據(jù)提出了“萬物皆可考”的理念。這背后是基于市場需求的持續(xù)迭代,用金數(shù)據(jù)自己的話說,就是“主打一個寵粉”。

“快出題”如何在技術與需求間找到了最優(yōu)解,如何通過AI Agent爆改傳統(tǒng)考試?以下來自金數(shù)據(jù)“快出題”技術負責人周藝的分享節(jié)選。

把用戶寵上天的金數(shù)據(jù),用AI Agent攻克企業(yè)培訓考試難題

01

從0到1打造新產(chǎn)品,客戶需求是第一驅動力

快出題的能力,首先是出題,AI組件能夠快速從已有的題庫中抽取題目,生成一份試卷,并且支持AI閱卷;其次是提供練習模式,尤其適用于企業(yè)培訓場景,用戶也可以導出試卷,方便在線下組織考試;最后還提供出題API,如果企業(yè)有自己的考試系統(tǒng),可以通過快出題的API將出好的題目導入到自己的系統(tǒng)里。

在快出題的迭代過程中,我們經(jīng)歷了“金數(shù)據(jù)考試——AI考試——快出題”三個階段。其實快出題最初是為金數(shù)據(jù)表單中有考試場景需求的用戶設計的,但金數(shù)據(jù)表單主要用于數(shù)據(jù)收集,在考試場景存在一些先天的不足,比如難以支持大型題庫,也不支持練習模式。于是,我們當時開發(fā)了一個無論在操作體驗,還是流暢度上都表現(xiàn)出色的考試編輯器。然而,我們發(fā)現(xiàn)幾乎沒有人使用。為什么呢?因為導入題庫這件事太難了。

我們最早發(fā)布的內(nèi)測版本中,導入題庫需要用戶按指定的 Excel 模版上傳題庫,操作繁瑣且出錯概率極高,基本上用戶都卡在了這一步。怎么辦?當然是寵粉!用戶居然導入不進來,我們就幫他解決這個問題,于是我們推出了第一個AI功能—— 通過AI導入題庫 。用戶上傳任意格式的題庫文件,我們都能用AI解析其中的題目,并格式化成題庫供用戶使用。

但隨后我們又發(fā)現(xiàn)了一個問題:許多用戶根本沒有題庫,而是直接將他們的資料文檔當作題庫上傳。為了滿足用戶需求,我們開發(fā)了 基于資料庫生成題庫 的功能,只要用戶有文檔資料,我們就能幫助他們生成題目。

后來一些用戶告訴我們,想用我們的產(chǎn)品做企業(yè)培訓,但并沒有成型的資料。怎么辦?我們依然是主打一個寵粉!于是,我們又推出了一個功能—— 基于一句話出題 。用戶只需輸入需求,我們就能生成一套考試題目,到了這一步,基本上用戶只要進來就能用起來。但有些用戶開始反饋說,哎,你們生成的結果好像不太對。

問題出在哪里呢?我們都知道大模型有一個“幻覺”問題。當資料不足時,大模型就會編造一些虛假事實。當時有一位用戶反饋,在我們的一句話出題功能中出了關于網(wǎng)絡熱梗“成都迪士尼”的題目。出題時,AI誤以為成都真的要建迪士尼,于是生成了許多關于成都迪士尼門票、項目相關的題目,這顯然不是用戶想要的。

后來我們通過聯(lián)網(wǎng)搜索的方式,確保了生成的題目準確無誤。至此,我們的產(chǎn)品基本完成,去年3月25日上線時,我們將產(chǎn)品正式命名為金數(shù)據(jù)AI考試,并基于AI出題開發(fā)了一系列功能。

把用戶寵上天的金數(shù)據(jù),用AI Agent攻克企業(yè)培訓考試難題

在推廣過程中,我們發(fā)現(xiàn),用戶在嘗試一句話生成題目時,往往會想到生成數(shù)學題或語文題,而提示詞工程在K12學科方面的出題表現(xiàn)并不理想。后來,我們嘗試了COT,即通過構建一個復雜且包含大量示例的提示詞,一步步引導AI完成復雜任務。簡單來說,就是教會AI如何“工作”。與此同時,我們開始研究老師是如何出題的。通過研究大量文獻,形成專門的提示詞,在大模型上進行反復嘗試,最終找到了最優(yōu)解。不僅適用于K12出題,還可以用于各種職業(yè)資格考試,如司法考試、會計考試、建造師/建筑師考試等,從而真正實現(xiàn)了“萬物皆可考”。

把用戶寵上天的金數(shù)據(jù),用AI Agent攻克企業(yè)培訓考試難題

02

借力AI Agent升級,聚焦大企業(yè)“出題”痛點

接下來,我們面臨了一個新的挑戰(zhàn):一些大型企業(yè)用戶已經(jīng)擁有自己的考試系統(tǒng),但非常認可金數(shù)據(jù)的出題能力,問我們能否通過API將金數(shù)據(jù)的出題能力集成到他們自己的系統(tǒng)里。于是,我們開始著手構建對外開放的API。

當時,為了快速開發(fā),我們所有的提示詞工程都是在我們的Ruby項目里完成的。選擇Ruby的原因主要有兩個:一方面,金數(shù)據(jù)本身就主張使用Ruby;另一方面,金數(shù)據(jù)在Ruby社區(qū)中處于頂尖水平,我們對駕馭這個技術棧非常有信心。

然而,隨著技術功能的不斷迭代,我們逐漸發(fā)現(xiàn)Ruby生態(tài)的不足。由于缺乏豐富的生態(tài)支持,在Ruby上很難進行快速調(diào)試和問題追蹤,代碼編寫也缺乏一定的規(guī)范性。如果要開發(fā)一個對外的API,并滿足用戶的私有化定制需求,難度極大。因此,我們痛定思痛,決定將所有的AI應用模型從Ruby中遷移出來,切換到LangChain,擁抱Lang圈生態(tài),簡化后續(xù)的維護和開發(fā)工作。

我們也對比了其他解決方案,例如Defy、LlamIndex、Mastra等,但它們都存在各自的問題。最終,我們選擇了LangChain作為技術方案。完成遷移后,我們發(fā)現(xiàn)開發(fā)API變得非常快速且易于實現(xiàn)。

在開發(fā)對外API的過程中,我們還進一步認識到,許多用戶已經(jīng)有了自己的考試系統(tǒng),更需要我們幫助他們完成出題環(huán)節(jié)。于是,我們從市場需求出發(fā),對產(chǎn)品方向進行了調(diào)整,從“金數(shù)據(jù)AI考試”進化為“快出題”,適當降低了考試功能的比重,專注于提升出題能力。

技術側的創(chuàng)新嘗試為我們帶來了顯著的改進:

首先,我們引入了LangGraph,它是LangChain生態(tài)中專門用于Agent編排和Workflow組織的工具。我們可以借此構建更為復雜的AI應用。

以一句話出題功能為例,此前它是通過單一的Prompt加上一些輸入、輸出檢查實現(xiàn)的單一Agent。改進后,我們將出題過程拆分成多個部分,每個部分由一個 Agent 單獨完成,所以出題就變成了多個 Agents 的協(xié)同工作。Analyzer 先分析用戶意圖,Retriever 檢索相關資料,在取得意圖和資料后交由 Generator 出題,出題完成后 Validator 會檢查題目質量,如果不合格會要求 Generator 改進,最后將結果呈現(xiàn)給用戶。經(jīng)過這一系列改進,一句話出題的效果顯著增強,包括題目的深度、難度、受眾語氣,甚至還能增加趣味性。比如,模擬林黛玉的語言風格出一套春節(jié)拜年題,在過去是無法實現(xiàn)的,現(xiàn)在的題目則變得更加靈活、有新意,進一步拓展了使用場景。

在知識庫出題方面,我們也進行了優(yōu)化,將之前的線性生成改為并行處理。我們增加了一個Planner,它可以將一個任務拆分成多個小任務,每個小任務分配一個 Generator 執(zhí)行,生成完成后,由一個專門的 Picker Agent 從結果中挑選出優(yōu)質內(nèi)容,最終形成一個題庫呈現(xiàn)給用戶。這一提升首先體現(xiàn)在速度上,生成100道題,僅需30秒;其次是穩(wěn)定性,不會因為輸出過長,導致大模型降智。無論出多少題,質量都能得到保證。

其次,我們引入了一個大模型監(jiān)測平臺LangFuse,它帶來了兩個顯著優(yōu)勢:一方面,我們可以對所有任務進行Trace,便于跟蹤和調(diào)試,從而提升研發(fā)效率;另一方面,金數(shù)據(jù)旗下還有一款名為“浩客”的產(chǎn)品。在快出題生成一套題目后,浩客會彈出一個小窗口,詢問用戶對結果是否滿意。這正是大模型能力測評中非常重要的一部分——用戶反饋。我們可以通過浩克收集到的數(shù)據(jù),將生成的任務和用戶對任務的評價關聯(lián)起來,我們便能更好地了解改進效果如何,在哪些方面還需要提升。

在AI應用領域,選擇往往比努力更重要。如果我們一開始繼續(xù)在Ruby上進行迭代,可能很難實現(xiàn)后面這些能力的提升。

把用戶寵上天的金數(shù)據(jù),用AI Agent攻克企業(yè)培訓考試難題

03

經(jīng)驗總結

回顧整個迭代的過程,我們覺得做對了三件事:堅持交互體驗。確保用戶在使用金數(shù)據(jù)時,不會遇到超過五秒的loading,所有地方都是實時返回結果,迅速給用戶反饋,這樣用戶才更有動力堅持操作,直至看到最終生成的題目;堅持產(chǎn)品驅動。不斷深挖產(chǎn)品使用中的痛點和不足,快速迭代和上線,持續(xù)為用戶創(chuàng)造價值;擁抱技術革新。我們不會因為自己在Ruby社區(qū)中的地位而固守原有的技術。

與此同時,我們也收獲了三個寶貴的經(jīng)驗:避免過度優(yōu)化。在AI調(diào)優(yōu)的過程中,我們曾花費大量精力進行調(diào)整,但隨著大模型的升級,之前的優(yōu)化往往變得不再適用。所以,當我們在大模型或AI應用中遇到棘手問題時,也許等一等是一個更好的選擇;多嘗試、多探索。選對方案往往比努力更重要;辨識用戶的真實需求。我們最初開發(fā)考試功能,是因為用戶表示他們需要題庫和組織考試的能力。隨著產(chǎn)品的迭代,最后我們發(fā)現(xiàn),用戶最大的需求其實是出題。

展望未來,我們今年會更多的深耕具體的考試場景,提供更有針對性的優(yōu)化,以及更專業(yè)的服務。在對外開放的API上加大投入,提供更加便捷的接入方式,讓更多用戶接入我們的AI Agent能力。

最近,我們關注到Anthropic提出的MCP(一個框架協(xié)議),它可以將產(chǎn)品封裝成一個工具,供其他AI產(chǎn)品調(diào)用。這可能是未來AI產(chǎn)品發(fā)展的主流趨勢,我們也在積極探索提供快出題的MCP server,以便更好地融入未來的AI生態(tài)。

點擊此處開始體驗

信息填寫

*手機號碼:

請選協(xié)議