正在播放国产一区_亚洲精品字幕在线观看|HD中文字幕在线播放,少妇莹莹的放荡生活,日韩欧美综合一区,国产欧美一区二区三区96精品

EN

超AI說|前沿NLP技術(shù)讓機(jī)器善解人意,從感知智能躍向認(rèn)知智能

2021-10-29

說到自然語言處理(NLP)到底干什么的,我們可以舉個(gè)例子。假如孔子穿越到現(xiàn)在,他理解現(xiàn)代漢語也是需要成本的。因?yàn)檎Z言是動態(tài)的,需要放在時(shí)間和空間的維度上去看待,它是不斷演化的。我們每天都會產(chǎn)生一些新詞,比如說“不明覺厲”、“同九義,何汝秀”,同時(shí)我們要摒棄一些舊詞,比如說“三綱五常”。

其實(shí),語言不止在時(shí)間和空間上有g(shù)ap,人類與機(jī)器之間也存在一個(gè)gap。自然語言處理主要就是解決這個(gè)gap,讓機(jī)器能夠讀懂人類的語言,包括人類的書面語或者口語。

說到人類與機(jī)器的最大的gap,我們首先想到的是思維。人類是有思維的,而機(jī)器沒有。現(xiàn)階段人類與機(jī)器最大的gap,我覺得應(yīng)該是語義。人類的語義主要通過文字、聲音、表情等去表達(dá);而機(jī)器是冰冷的,只懂得0和1的語言。

如何將人類與機(jī)器的gap縮短,顯然有兩條路:第一條路,我們把人類的語言轉(zhuǎn)化為機(jī)器能夠讀懂的語言;第二條路,讓機(jī)器能夠自動地讀懂人類的感情、人類的聲音。顯然,第二條路是非常苛刻的,我們既然勉強(qiáng)不了機(jī)器,我們可以嘗試去改變自己。

說到技術(shù),我們可以先回顧一下近十年來NLP的重大的突破。

首先,在2013年谷歌提出word2vec這個(gè)word embedding之前,詞袋模型和TF-IDF有絕對的江湖地位。word2vec出現(xiàn)后,迅速席卷了整個(gè)NLP領(lǐng)域的各大任務(wù),一直到2018年BERT的出現(xiàn)。BERT的出現(xiàn)直接顛覆了NLP的研究格局,橫掃了NLP的各個(gè)領(lǐng)域。

我們可以發(fā)現(xiàn),包括word2vec,還有word embedding這種方式,以及BERT,它們都有一個(gè)共同的特點(diǎn),就是預(yù)訓(xùn)練。word2vec這種word embedding方式,預(yù)訓(xùn)練的是語言模型,而BERT是結(jié)合了下游任務(wù)進(jìn)行了預(yù)訓(xùn)練。至此,NLP領(lǐng)域出現(xiàn)了全新的解題范式:預(yù)訓(xùn)練加微調(diào)。

確實(shí),預(yù)訓(xùn)練加微調(diào)給我們帶來很多的方便,它能夠使NLP工程師快速地入門,也就是說門檻變低了,能夠快速地實(shí)現(xiàn)算法的工程化。那么這種范式到底能夠走多遠(yuǎn)呢?它到底是否能夠解決所有的問題、所有的NLP任務(wù)呢?

我個(gè)人覺得,它暫時(shí)還解決不了所有的任務(wù)。

因?yàn)槟壳八惴ㄓ绕涫沁@種范式,在數(shù)據(jù)固定、場景固定的情況下,能取得很好的效果,但如果是放在一個(gè)稍微開放的情況下,它不見得能夠取得完整的效果。

另外,這種范式結(jié)合下游任務(wù),比如文本分類、智能問答,能夠取得很好的效果,但是對于NLP的一些基礎(chǔ)性的研究,比如中文分詞、新詞發(fā)現(xiàn),它不見得會取得那么好的結(jié)果。

同時(shí),在這種范式下,有一個(gè)很重要的前提,就是基于海量的數(shù)據(jù)。我們也知道,在現(xiàn)實(shí)場景下,很多領(lǐng)域并不一定具有那么多的數(shù)據(jù)量,或者它的數(shù)據(jù)是離散的,并沒有集中到一起,那這個(gè)時(shí)候,采用這種范式去解決問題,并不見得會取得很好的效果。

明略科學(xué)院目前匯集了全來自于全球人工智能領(lǐng)域的五十多位科學(xué)家,其次,明略科技聚焦于場景、聚焦于技術(shù),然后由點(diǎn)及面。

在數(shù)據(jù)方面,我們積累了海量的數(shù)據(jù),同時(shí)明略科技深耕營銷、公安、金融等領(lǐng)域多年,每天有數(shù)十億的數(shù)據(jù)產(chǎn)生,來支撐我們基于深度學(xué)習(xí)的訓(xùn)練加微調(diào)。

另外,在技術(shù)廣度方面,明略科技也有自己的技術(shù)沉淀。首先,明略科技不止專注于應(yīng)用型的NLP研究,同時(shí)也專注于基礎(chǔ)型的NLP研究,比如說中文分詞、命名實(shí)體識別,因?yàn)槊總€(gè)領(lǐng)域它都有不同的詞需要我們?nèi)グl(fā)現(xiàn)。其次,明略科技將知識圖譜和深度學(xué)習(xí)進(jìn)行有機(jī)結(jié)合,因?yàn)樯疃葘W(xué)習(xí)方法本身不太具有可解釋性,而知識圖譜是個(gè)白盒,它具有很好的可解釋性。因此,我們將深度學(xué)習(xí)和知識圖譜有機(jī)地結(jié)合起來,進(jìn)行優(yōu)勢互補(bǔ),我們叫“白加黑”,雙管齊下。我們的另外一個(gè)技術(shù)非常有代表性的一個(gè)技術(shù)特色是多模態(tài),我們將文本、語音、圖像進(jìn)行有機(jī)結(jié)合,形成了我們的HAO模塊, HAO交互、HAO圖譜。

在技術(shù)深度這個(gè)角度,明略科技有自己的預(yù)訓(xùn)練模型。同時(shí)我們也專注于圖神經(jīng)網(wǎng)絡(luò)在NLP領(lǐng)域、在知識圖譜領(lǐng)域的應(yīng)用。

信息填寫

*手機(jī)號碼:

請選協(xié)議