少妇久久久久久被弄到高潮_国产嫖妓一区二区三区无码_比比资源先锋影音网_天美传媒精品1区2区3区_97精品国产一区二区三区

微軟亞研院副院長(zhǎng)周明:口語機(jī)器翻譯在未來肯定會(huì)完全普及

大交通 本文作者:龜途漫漫 2017-06-06
近日,微軟亞洲研究院副院長(zhǎng)周明博士就自然語言處理技術(shù)的概況、最新進(jìn)展及未來發(fā)展方向?qū)ν饨缱隽艘淮畏窒怼?/span>

自然語言處理技術(shù)的現(xiàn)狀和未來。

隨著智能語音助手、聊天機(jī)器人(Chatbot)等產(chǎn)品逐漸成熟,出現(xiàn)在普通用戶的眼前,其中的一些核心技術(shù)也正變得越來越重要、越來越受到大家的關(guān)注。自然語言處理技術(shù)(Nature Language Processing,簡(jiǎn)稱 NLP)就是其中之一。

近日,微軟亞洲研究院副院長(zhǎng)周明博士就自然語言處理技術(shù)的概況、最新進(jìn)展及未來發(fā)展方向?qū)ν饨缱隽艘淮畏窒?,極客公園也借機(jī)與周明博士進(jìn)行了交流,下面,我們就把其中的內(nèi)容介紹給大家,通過這場(chǎng)分享,或許我們能對(duì)自然語言處理這項(xiàng)技術(shù)有更全面的理解。

概述:人工智能技術(shù)整體的發(fā)展?fàn)顩r

人工智能經(jīng)過 61 年的發(fā)展,起起伏伏,曾經(jīng)歷過兩次冬天,隨著云計(jì)算、大數(shù)據(jù)、深度學(xué)習(xí)三大要素的交織下,人工智能又迎來了一個(gè)新的春天。而這次人工智能春天的特點(diǎn)有以下三點(diǎn):

第一,數(shù)據(jù)比以前大了很多倍。以前做人工智能基本上是請(qǐng)一些專家錄入數(shù)據(jù)寫一些簡(jiǎn)單的規(guī)則,現(xiàn)在都海量的數(shù)據(jù),包括互聯(lián)網(wǎng)數(shù)據(jù)。

第二,計(jì)算的能力大大發(fā)展。以云計(jì)算為代表的計(jì)算能力使人們?cè)谟?xùn)練或?qū)嵤r(shí)不用再擔(dān)心。以前的 PC 機(jī)能非常有限。

第三,所謂的深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)了點(diǎn)對(duì)點(diǎn)、端對(duì)端的訓(xùn)練。你需要做的就是掌握并整理標(biāo)注的數(shù)據(jù),放到深度學(xué)習(xí)框架里面,它自動(dòng)學(xué)習(xí),自動(dòng)抽取課程完成你所需要完成的任務(wù)。這使得機(jī)器學(xué)習(xí)的門檻大幅度下降,人工智能可以走向平民化,很多領(lǐng)域都可以用人工智能實(shí)現(xiàn)。

此外,還有重要的一點(diǎn),就是落地的場(chǎng)景,這是過去兩次浪潮都沒有的。過去都是套用系統(tǒng),做一些小游戲、小玩具,比如做一個(gè)小問答系統(tǒng)。而現(xiàn)在的人工智能是有實(shí)實(shí)在在的應(yīng)用場(chǎng)景,比如說現(xiàn)在億萬網(wǎng)民都在使用的搜索引擎背后就有很多人工智能的系統(tǒng);自動(dòng)駕駛汽車從感知到認(rèn)知都用到了很多人工智能技術(shù)。

微軟亞洲研究院副院長(zhǎng)周明博士

這個(gè)場(chǎng)景有什么好處呢?一開始技術(shù)是有限的,能力是有問題的,隨著越來越多人將其作為剛需使用,自然而然提供了海量的反饋,整個(gè)系統(tǒng)就可以不斷提升。比如說搜索引擎,網(wǎng)民使用搜索引擎實(shí)際上也在幫助搜索引擎訓(xùn)練。

自然語言處理技術(shù)的概況

人工智能是用電腦來模擬和實(shí)現(xiàn)人類的智能,而人類的智能大概分如下幾個(gè)層次:運(yùn)算智能、感知智能、認(rèn)知智能以及最高一層的創(chuàng)造智能。其中,自然語言處理技術(shù)主要屬于第三層認(rèn)知智能這一部分。

自然語言處理是體現(xiàn)語言智能重要的技術(shù),它是人工智能一個(gè)重要的分支,能幫助機(jī)器分析、理解或者生成自然語言,實(shí)現(xiàn)人與機(jī)器的自然交流,同時(shí)也幫助人與人之間的交流。

自然語言處理包括以下幾方面內(nèi)容:

第一是 NLP 的基礎(chǔ)技術(shù),圍繞不同層次的自然語言處理,比如說分詞、詞性標(biāo)注、語義分析做一些加工。后面做任何其他新的技術(shù)或者應(yīng)用都必須要用到基礎(chǔ)技術(shù)。

中間這塊是 NLP 核心技術(shù),包括詞匯、短語、句子、篇章的表示,大家所說的 Word Embedding 就是在研究不同的語言單位的表示方法。它也包括機(jī)器翻譯、提問和回答、信息檢索、信息抽取、聊天和對(duì)話、知識(shí)工程、語言生成、推薦系統(tǒng)。

最后是「NLP+」,仿照「人工智能+」或「互聯(lián)網(wǎng)+」的概念,實(shí)際上就是把自然語言處理技術(shù)深入到各個(gè)應(yīng)用系統(tǒng)和垂直領(lǐng)域中。比較有名的是搜索引擎、智能客服、商業(yè)智能和語音助手,還有更多在垂直領(lǐng)域——法律、醫(yī)療、教育等各個(gè)方面的應(yīng)用。

從四個(gè)方面介紹 NLP 的進(jìn)展

首先介紹機(jī)器翻譯的進(jìn)展

微軟這兩年在機(jī)器翻譯上有了新的長(zhǎng)足的進(jìn)步,首先是在語音翻譯上全面采用了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,并拓展了新的翻譯功能,叫做 Microsoft Translator Live Feature(現(xiàn)場(chǎng)翻譯功能),在演講和開會(huì)時(shí),實(shí)時(shí)自動(dòng)在手機(jī)端或桌面端,把演講者的話翻譯成多種語言。

這張圖概括了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,簡(jiǎn)要的說,就是對(duì)源語言的句子進(jìn)行編碼,一般都是用長(zhǎng)短時(shí)記憶 LSTM 進(jìn)行編碼。編碼的結(jié)果就是有很多隱節(jié)點(diǎn),每個(gè)隱節(jié)點(diǎn)代表從句首到當(dāng)前詞匯為止,與句子的語義信息。基于這些隱節(jié)點(diǎn),通過一個(gè)注意力的模型來體現(xiàn)不同隱節(jié)點(diǎn)對(duì)于翻譯目標(biāo)詞的作用。通過這樣的一個(gè)模式對(duì)目標(biāo)語言可以逐詞進(jìn)行生成,直到生成句尾。中間在某一階段可能會(huì)有多個(gè)翻譯,我們會(huì)保留最佳的翻譯,從左到右持續(xù)。

這里最重要的技術(shù)是對(duì)于源語言的編碼,還有體現(xiàn)不同詞匯翻譯的,不同作用的注意力模型。此外,微軟還持續(xù)做了一些工作,其中主要有兩個(gè)方面。

第一,引入語言知識(shí)。因?yàn)樵诰幋a的時(shí)候是僅把源語言和目標(biāo)語言看成字符串,沒有體會(huì)內(nèi)在的詞匯和詞匯之間的修飾關(guān)系。我們把句法知識(shí)引入到神經(jīng)網(wǎng)絡(luò)編碼、解碼之中,這是傳統(tǒng)的長(zhǎng)短時(shí)記憶 LSTM,這是模型,我們引入了句法,得到了更佳的翻譯,這是大家看到的指標(biāo)有了很大程度的提升。

第二,引入領(lǐng)域內(nèi)的知識(shí)圖譜。微軟想把知識(shí)圖譜納入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯當(dāng)中,來規(guī)劃語言理解的過程。其中的一個(gè)假設(shè)就是雖然大家的語言可能不一樣,但是體現(xiàn)在知識(shí)圖譜的領(lǐng)域上可能是一致的,就用知識(shí)圖譜增強(qiáng)編碼、解碼。具體來講,就是對(duì)于輸入句子,先映射到知識(shí)圖譜,然后再基于知識(shí)圖譜增強(qiáng)解碼過程,使得譯文得到進(jìn)一步改善。

其次是中國(guó)文化的部分

2004 年的時(shí)候,微軟就已經(jīng)在對(duì)聯(lián)的部分嘗試過用機(jī)器翻譯的技術(shù)來模擬對(duì)聯(lián)的全過程。而最近,在微軟對(duì)聯(lián)的基礎(chǔ)上,他們又繼續(xù)去嘗試其他的中國(guó)文化,其中有一個(gè)特色就是字謎。

字謎是給你謎面讓你猜謎底。當(dāng)然也可以反過來,給定一個(gè)謎底,讓你出謎面?,F(xiàn)在,已經(jīng)可以用電腦來模擬整個(gè)猜字謎和出字謎的過程了,我們也把這個(gè)功能放在了微軟對(duì)聯(lián)的網(wǎng)站上。

同時(shí),微軟亞洲研究院的宋睿華博士最近就在用這種神經(jīng)網(wǎng)絡(luò)的技術(shù)來進(jìn)行詩歌的創(chuàng)作。這件事非常有創(chuàng)意:用戶提交一個(gè)照片,讓系統(tǒng)進(jìn)行,然后變成一首詩,自由體的詩。大概兩周以前,微軟小冰發(fā)布了微軟小冰寫詩的技能,引起了很多人的關(guān)注。這種把人工智能和中國(guó)文化巧妙結(jié)合起來的方式也很有創(chuàng)意。

對(duì)話即平臺(tái)

下一個(gè)方向是「對(duì)話即平臺(tái)」,英文叫做「Conversation as a Platform(CaaP)」。2016 年,微軟首席執(zhí)行官薩提亞在大會(huì)上提出了 CaaP 這個(gè)概念,他認(rèn)為繼圖形界面的下一代就是對(duì)話,它會(huì)對(duì)整個(gè)人工智能、計(jì)算機(jī)設(shè)備帶來一場(chǎng)新的革命。

提出這個(gè)概念有兩個(gè)原因。

第一個(gè)原因源于大家都已經(jīng)習(xí)慣用社交手段,如微信、Facebook 與他人聊天的過程。微軟希望將這種通過自然的語言交流的過程呈現(xiàn)在當(dāng)今的人機(jī)交互中,而語音交流的背后就是對(duì)話平臺(tái)。

第二個(gè)原因則在于,現(xiàn)在大家面對(duì)的設(shè)備有的屏幕很小,有的甚至沒有屏幕,所以通過語音的交互,更為自然直觀的。因此,我們是需要對(duì)話式的自然語言交流的,通過語音助手來幫忙完成。

而在產(chǎn)品策略上,微軟在做 CaaP 的時(shí)候?qū)嶋H上有兩個(gè)主要的產(chǎn)品策略。

第一個(gè)是小娜,通過手機(jī)和智能設(shè)備介入,讓人與電腦進(jìn)行交流:人發(fā)布命令,小娜理解并執(zhí)行任務(wù)。第二個(gè)就是小冰。它是一種新的理念,就是人與它之間的閑聊。

而無論是小冰這種閑聊,還是小娜這種注重任務(wù)執(zhí)行的技術(shù),其實(shí)背后單元處理引擎無外乎就三層技術(shù)。

第一層:通用聊天,需要掌握溝通技巧、通用聊天數(shù)據(jù)、主題聊天數(shù)據(jù),還要知道用戶畫像,投其所好。

第二層:信息服務(wù)和問答,需要搜索的能力,問答的能力,還需要對(duì)常見問題表進(jìn)行收集、整理和搜索,從知識(shí)圖表、文檔和圖表中找出相應(yīng)信息,并且回答問題,我們統(tǒng)稱為 Info Bot。

第三層:面向特定任務(wù)的對(duì)話能力,例如定咖啡、定花、買火車票,這個(gè)任務(wù)是固定的,狀態(tài)也是固定的,狀態(tài)轉(zhuǎn)移也是清晰的,那么就可以用 Bot 一個(gè)一個(gè)實(shí)現(xiàn)。你有一個(gè)調(diào)度系統(tǒng),你知道用戶的意圖就調(diào)用相應(yīng)的 Bot 執(zhí)行相應(yīng)的任務(wù)。它用到的技術(shù)就是對(duì)用戶意圖的理解,對(duì)話的管理,領(lǐng)域知識(shí),對(duì)話圖譜等等。

為了把這種能力釋放出去,讓每個(gè)人都能夠體驗(yàn)人工智能的好處,微軟開發(fā)了一個(gè)叫 Bot Framework 的工具、平臺(tái),任何一個(gè)開發(fā)者只用幾行代碼就可以完成自己所需要的 Bot。

最后一個(gè)方面是閱讀理解

閱讀理解顧名思義就是給你一篇文章,看你理解到什么程度。為了推動(dòng)閱讀理解的發(fā)展,美國(guó)斯坦福大學(xué)就開發(fā)了一個(gè)測(cè)試題,也開放給大眾。它既有訓(xùn)練的部分,也有開發(fā)的部分,還有測(cè)試的部分。每個(gè)參賽隊(duì)伍拿到測(cè)試題目,自己進(jìn)行訓(xùn)練。通過開發(fā)調(diào)自己的參數(shù),最后提交自己的系統(tǒng),然后斯坦福大學(xué)就把你的成績(jī)公布到他的網(wǎng)站上。

從去年 9 月份到現(xiàn)在,微軟亞洲研究院一直名列第一?,F(xiàn)在人工閱讀的正確率能做到 82% 左右,而現(xiàn)在我們微軟亞洲研究院的結(jié)果在 76% 左右,與人類水平還差 5 分左右。在閱讀理解這樣難的技術(shù)上,我們可以清醒的認(rèn)識(shí)到還有很長(zhǎng)的路要走。其實(shí)就包括對(duì)常識(shí)知識(shí)的把握、推理的能力,還有識(shí)別問題、上下文理解的問題等等。

NLP 未來的發(fā)展方向

第一,隨著大數(shù)據(jù)、深度學(xué)習(xí)、云計(jì)算這三大要素推動(dòng),所謂認(rèn)知智能,尤其是語言智能跟感知智能一樣會(huì)有長(zhǎng)足的發(fā)展。從初步的應(yīng)用到搜索、聊天機(jī)器人上,到通過對(duì)上下文的理解,知識(shí)的把握,它的處理能力得到長(zhǎng)足的進(jìn)步。具體來講,口語機(jī)器翻譯肯定會(huì)完全普及,任何人出國(guó),無論到了哪個(gè)國(guó)家,拿起電話來你說你的母語,跟當(dāng)?shù)厝私涣鞑粫?huì)有太大的問題,而且是非常自如的過程,就跟你打電話一樣。雖然這不意味著同聲翻譯能徹底顛覆,也不意味著這種專業(yè)領(lǐng)域的文獻(xiàn)的翻譯可以徹底解決;但我認(rèn)為還是會(huì)有很大的進(jìn)展。

第二,自然語言的會(huì)話、聊天、問答、達(dá)到實(shí)用程度。這意味著在常見的場(chǎng)景下,通過人機(jī)對(duì)話的過程完成某項(xiàng)任務(wù),這個(gè)是可以完全實(shí)現(xiàn),包括帶口音的說話都可以完全聽懂。但是同樣,這也不代表任何話題、任何任務(wù)、用任何變種的語言去說都可以達(dá)到。目前離那個(gè)目標(biāo)還很遠(yuǎn),我們也在努力。

第三,智能客服加上人工客服完美的結(jié)合,一定會(huì)大大提高客服的效率。我認(rèn)為很多重復(fù)的客服工作,比如說問答,還有簡(jiǎn)單的任務(wù),基本上人工智能都可以解決。但是復(fù)雜的情況下仍然不能解決。所以,它實(shí)際上是人工智能跟人類智能完美生產(chǎn)線的結(jié)合來提高一個(gè)很好的生產(chǎn)力,這個(gè)是沒有問題的。

第四,自動(dòng)寫對(duì)聯(lián)、寫詩、寫新聞稿和歌曲等等,我認(rèn)為今天可能還是一個(gè)新鮮的事物,但是五到十年一定都會(huì)流行起來,甚至都會(huì)用起來。比如說寫新聞稿,給你一些數(shù)據(jù),這個(gè)新聞稿草稿馬上就寫出來,你要做的就是糾正,添油加醋,供不同的媒體使用等。

第五,在會(huì)話方面,語音助手、物聯(lián)網(wǎng)、智能硬件、智能家居等等,凡是用到人機(jī)交互的,我認(rèn)為基本上都可以得到應(yīng)用,而且促進(jìn)以上的一些產(chǎn)品推廣。

最后,認(rèn)知智能、感知智能一起努力,在很多場(chǎng)景下,比如說法律、醫(yī)療診斷、醫(yī)療咨詢、法律顧問、投融資等等,這些方面自然語言會(huì)得到廣泛的應(yīng)用。

*本文來源:微信公眾號(hào)“極客公園”(ID:geekpark),作者:龜途漫漫,原標(biāo)題:微軟亞研院副院長(zhǎng)周明:口語機(jī)器翻譯在未來肯定會(huì)完全普及


【號(hào)外】想要捕捉文旅大消費(fèi)行業(yè)風(fēng)向標(biāo)?想要了解最前沿的文旅跨界創(chuàng)新?想要學(xué)習(xí)行業(yè)大佬最新的干貨分享?想要與行業(yè)精英現(xiàn)場(chǎng)互動(dòng)深入交流?來“2017中國(guó)文旅大消費(fèi)創(chuàng)新峰會(huì)”吧!6月13-14日,北京·國(guó)際會(huì)議中心,文旅大消費(fèi)頂級(jí)內(nèi)容盛宴等你來!了解會(huì)議詳情&報(bào)名請(qǐng)戳:我要報(bào)名

版權(quán)聲明
執(zhí)惠本著「干貨、深度、角度、客觀」的原則發(fā)布行業(yè)深度文章。如果您想第一時(shí)間獲取旅游大消費(fèi)行業(yè)重量級(jí)文章或與執(zhí)惠互動(dòng),請(qǐng)?jiān)谖⑿殴娞?hào)中搜索「執(zhí)惠」并添加關(guān)注。歡迎投稿,共同推動(dòng)中國(guó)旅游大消費(fèi)產(chǎn)業(yè)鏈升級(jí)。投稿或?qū)で髨?bào)道請(qǐng)發(fā)郵件至執(zhí)惠編輯部郵箱zjz@tripvivid.com,審閱通過后文章將以最快速度發(fā)布并會(huì)附上您的姓名及單位。執(zhí)惠發(fā)布的文章僅代表作者個(gè)人看法,不代表執(zhí)惠觀點(diǎn)。關(guān)于投融資信息,執(zhí)惠旅游會(huì)盡量核實(shí),不為投融資行為做任何背書。執(zhí)惠尊重行業(yè)規(guī)范,轉(zhuǎn)載都注明作者和來源,特別提醒,如果文章轉(zhuǎn)載涉及版權(quán)問題,請(qǐng)您及時(shí)和我們聯(lián)系刪除。執(zhí)惠的原創(chuàng)文章亦歡迎轉(zhuǎn)載,但請(qǐng)務(wù)必注明作者和「來源:執(zhí)惠」,任何不尊重原創(chuàng)的行為都將受到嚴(yán)厲追責(zé)。
本文來源執(zhí)惠,版權(quán)歸原作者所有。
發(fā)表評(píng)論
后發(fā)表評(píng)論
最新文章
查看更多
# 熱搜詞 #

新用戶登錄后自動(dòng)創(chuàng)建賬號(hào)

登錄表示你已閱讀并同意《執(zhí)惠用戶協(xié)議》 注冊(cè)

找回密碼

注冊(cè)賬號(hào)