国产一级毛卡片视频在线播放,成人电影免费看,欧美精品日韩一区二区,日本福利视频在线,天天综合网加勒比

極客邦科技專訪騰訊小知陳松堅:知識表示是NLP乃至AI發(fā)展的瓶頸

2018-12-27 16:44 7925
極客邦科技主辦全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會--AICon 2018,會上專訪了騰訊數(shù)據(jù)平臺部高級算法研究員陳松堅,與大眾分享NLP的發(fā)展瓶頸以及當(dāng)前技術(shù)研發(fā)趨勢。

北京2018年12月27日電 /美通社/ -- 極客邦科技主辦全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會 -- AICon 2018,會上專訪了騰訊數(shù)據(jù)平臺部高級算法研究員陳松堅,與大眾分享 NLP 的發(fā)展瓶頸以及當(dāng)前技術(shù)研發(fā)趨勢。

騰訊小知
騰訊小知

人工智能領(lǐng)域有這樣一句名言:解決了 NLP 的難題,也就解決了 AI 領(lǐng)域80%的問題。從對話機(jī)器人 Eliza 開始,人們就對“會說話的機(jī)器”出奇的著迷,隨著人工智能技術(shù)的進(jìn)步,越來越多的人投身自然語言處理(NLP)的研究中,為了開發(fā)出智能、易用的對話機(jī)器人而不懈努力著。

幾個月前,AI 前線策劃了一篇文章,題為《都說聊天機(jī)器人已死,為什么騰訊還要打造自己的智能客服?》,在這篇文章中,曾深入討論過智能客服/問答產(chǎn)品和 NLP 技術(shù)的技術(shù)難點(diǎn)、解決思路、商業(yè)化落地的途徑和未來發(fā)展,在極客邦科技主辦的全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會 -- AICon 2018上,極客邦科技有幸再次專訪到騰訊數(shù)據(jù)平臺部高級算法研究員陳松堅,除了對他本人的技術(shù)研發(fā)之路有了更深的了解,陳松堅也分享了許多有關(guān) NLP 發(fā)展瓶頸以及技術(shù)趨勢的看法。

入坑 NLP,一不小心深耕十年

自然語言處理被稱為人工智能皇冠上的明珠,為了它,無數(shù)研究人員為之辛勤鉆研,陳松堅就是這其中的一員。2009年,還是研究生的陳松堅選擇了 NLP 作為自己的研究方向。為了這個選擇,他與自己作了一番斗爭。

從當(dāng)時比較現(xiàn)實(shí)的角度看,算法或許更好就業(yè),于是陳松堅選擇了機(jī)器學(xué)習(xí)、NLP、計算機(jī)視覺、數(shù)據(jù)挖掘等幾個方向作為備選。至于為什么最終選擇 NLP,陳松堅說,主要是因?yàn)榭紤]自己當(dāng)時對搜索引擎比較關(guān)注,尤其是智能搜索技術(shù);而從理想的角度想,他說自己從小比較喜歡機(jī)器人,一直有個夢想開始建造自己的機(jī)器人系統(tǒng),而 NLP 是其中的不可或缺的部分,于是也就自然地做出選擇了。

兜兜轉(zhuǎn)轉(zhuǎn)過了十年,陳松堅也早已成長為一名專業(yè)的研發(fā)人員,但是手里的工作還是轉(zhuǎn)回到了 NLP 相關(guān)的項(xiàng)目上來 -- 即騰訊小知,他開玩笑的說:或許是內(nèi)心的召喚讓自己重回智能對話這個研究領(lǐng)域。

騰訊小知是如何煉成的?

對于大部分對話機(jī)器人的研究人員來說:人類如何產(chǎn)生認(rèn)知并且與外部進(jìn)行交互是一個永恒的課題,對于陳松堅來說自然是不例外,他認(rèn)為:深度學(xué)習(xí)的興起使得語音和圖像識別的錯誤率大大降低,感知的問題得到了很大程度的解決。但是認(rèn)知的問題,目前可以說還沒有本質(zhì)上的進(jìn)步,原因就是那個永恒的課題。

場景演示
場景演示

“語言是思維的外化,研究語言的理解和產(chǎn)生,就是想借此推動認(rèn)知智能的發(fā)展?!标愃蓤匝a(bǔ)充道:“當(dāng)然這需要一個迭代的過程,也需要一個場景去實(shí)踐和落實(shí)這些想法,于是我們選擇了智能客服這個商業(yè)場景,去打造企業(yè)服務(wù)中的智能問答服務(wù),輸出價值?!?/p>

陳松堅說,智能問答中有很多方面都可以進(jìn)行深入研究。

比如,基礎(chǔ)層可以做深度語義匹配模型核心組件的進(jìn)一步優(yōu)化,還有開發(fā)問答拒識模型,用于過濾當(dāng)前問答庫無法回答的問題;應(yīng)用層可以做強(qiáng)化學(xué)習(xí)在多輪任務(wù)機(jī)器人的應(yīng)用,主要用于進(jìn)行對話策略的在線學(xué)習(xí)。目前騰訊小知團(tuán)隊已經(jīng)成功開發(fā)了若干個特定任務(wù)的 demo,正在準(zhǔn)備正式部署到線上使用。

說回陳松堅深度參與的騰訊小知項(xiàng)目。

騰訊小知是從去年7月開始啟動研發(fā)的智能客服系統(tǒng),經(jīng)歷1年多的核心功能打造,現(xiàn)已落地多個應(yīng)用,日均回答百萬量級。在之前的采訪中,陳松堅曾說:騰訊小知目前落地在政務(wù)、零售、服務(wù)等多個行業(yè),上線時間僅2個月,已落地了數(shù)套成熟行業(yè)解決方案,成長勢頭很好。

雖然長勢喜人,但說起騰訊小知的成長歷程,陳松堅還是發(fā)出了一聲感嘆:萬事起頭難。

他解釋道,在騰訊小知剛起步的時候,團(tuán)隊里對深度匹配模型的經(jīng)驗(yàn)較少,而又由于業(yè)務(wù)上線的進(jìn)度比較緊迫,因此選擇雙線作戰(zhàn),一邊開發(fā)基于傳統(tǒng)機(jī)器學(xué)習(xí)模型(xgboost)的線上系統(tǒng),另一邊進(jìn)行深度語義匹配模型的論文復(fù)現(xiàn)、調(diào)優(yōu)和工程實(shí)踐。

考慮到 SaaS 場景下用戶能夠提供的訓(xùn)練語料非常欠缺,陳松堅和團(tuán)隊因此特地引入了遷移學(xué)習(xí)的策略來對應(yīng)解決語料不足的問題。事實(shí)證明這些安排和策略都取得不錯的效果。

能夠帶領(lǐng)騰訊小知的算法團(tuán)隊,從零開始一步一步地建設(shè)這種面向行業(yè)的智能問答解決方案,讓陳松堅倍感欣慰,一方面需要快速響應(yīng)業(yè)務(wù)的需求,快速實(shí)現(xiàn)和上線新功能,切實(shí)解決客戶提出的問題;另一方面又必須緊跟業(yè)界和學(xué)界最新的技術(shù),并積極尋求實(shí)施落地的路徑,陳松堅說,從個人角度來說,這是最有成就感的事情。

從業(yè)近十年,陳松堅也積累了大量的實(shí)踐經(jīng)驗(yàn),在采訪中他也毫不吝嗇地將這些經(jīng)驗(yàn)分享給了有同樣困擾開發(fā)者:

他認(rèn)為對于開發(fā)者來說,首先,要盡早搞清楚業(yè)務(wù)的需求,不同行業(yè)的問答解決方案很可能會涉及到不同的技術(shù)點(diǎn),而且不同的業(yè)務(wù)場景對準(zhǔn)確率指標(biāo)的要求也不一樣,這個也會影響算法落地的側(cè)重點(diǎn)。比如騰訊小知較早接入的公安行業(yè),知識庫就特別復(fù)雜,分支條件很多,因此需要大量使用知識圖譜來補(bǔ)全 FAQ 機(jī)器人的問答死角。

第二,要注意測評數(shù)據(jù)集的準(zhǔn)確構(gòu)建,尤其是線上環(huán)境的測試數(shù)據(jù)的收集,需要保證線下實(shí)驗(yàn)?zāi)軐R模型在線上環(huán)境的效果。另外就是跟業(yè)務(wù)關(guān)聯(lián)的評價體系的構(gòu)建,這樣才能朝著正確的方向,穩(wěn)定地迭代優(yōu)化。

NLP 如何突破瓶頸?

智能客服是非常綜合的 AI 系統(tǒng),幾乎涉及 NLP 領(lǐng)域所有技術(shù)點(diǎn),甚至還包括語音和圖像的處理。但人們對技術(shù)往往短期期望過高,而長期期望過低。雖然近年來 NLP 應(yīng)用,尤其是翻譯、寫作、對話機(jī)器人等,在模型增強(qiáng)和知識圖譜建設(shè)完善的過程中,在特定的場景下,滿足了大部分人的使用需求,但是,在陳松堅看來,NLP 仍有一些瓶頸問題需要解決。

場景演示
場景演示

他說:AI 領(lǐng)域目前解決的問題,使用的都是模式識別的方法。進(jìn)一步解釋的話,就是通過大量的訓(xùn)練數(shù)據(jù)去找到數(shù)據(jù)內(nèi)里的模式,然后再應(yīng)用到實(shí)際數(shù)據(jù)的識別上,比如說語音的識別,圖像的識別等,對應(yīng)的是感知智能。

而 NLP 問題往往需要更高級的方法,因?yàn)樵谡Z言理解中涉及到大量的上下文,而除了一般意義的語言上下文,更重要的是外部知識上下文。這對應(yīng)的就是認(rèn)知智能的范疇,即如何幫助機(jī)器人構(gòu)建概念世界,并作用到 NLP 的處理過程中。

陳松堅比喻說:“我認(rèn)為,對知識表示的建模,是目前 NLP 乃至 AI 技術(shù)發(fā)展的瓶頸’,如果說 NLP 是皇冠上的明珠,那知識表示就是其中較大的一顆。”

他解釋道,目前的知識都是基于符號表示的,比如知識圖譜是利用了圖節(jié)點(diǎn)來表示概念,關(guān)聯(lián)邊來表示概念之間的關(guān)系,但總的來說還是一個符號系統(tǒng),所有的操作還是符號的檢索和匹配,而跟當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)模型沒辦法有機(jī)結(jié)合。

所以,他本人與研發(fā)團(tuán)隊思考的方向也是諸如:是否可以將所有概念和關(guān)系都利用深度學(xué)習(xí)技術(shù)向量化,以及如何將規(guī)則也使用模型表示等問題。

強(qiáng)化學(xué)習(xí)在多輪對話中的應(yīng)用也是陳松堅重點(diǎn)關(guān)注的技術(shù)趨勢,主要是在特定場景下進(jìn)行對話策略的學(xué)習(xí),例如訂票訂餐任務(wù)、商品推薦等。他認(rèn)為,目前主流的任務(wù)機(jī)器人都是基于槽位填充的方法,對話策略主要基于事先約定的規(guī)則,不夠靈活,而強(qiáng)化學(xué)習(xí)可以通過結(jié)合端到端模型來實(shí)現(xiàn)對話策略的靈活調(diào)整,并且能夠?qū)崿F(xiàn)在線學(xué)習(xí),使得多輪對話模型可以持續(xù)優(yōu)化。

消息來源:極客邦科技
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection