在線閱讀雜志

    2018年05月20日

    第10期 總第484期

    封面文章
    “網銀”殊途同歸路
    金融服務似乎正在以你想要的方式前行。 相應的,金融的生態及格局也在發生重大變化。技術的推動讓金融的數字化轉型愈發明顯,傳統金融機構“離柜率”同互聯網銀行業務激增形成強烈的對比。[詳細]
    精彩推薦
  • 搜狐彩票开奖频道:機器語言技術60年沉思錄:Finding a Voice

    搜狐彩票彩吧论坛 www.sojth.com 時間:2017-02-07    來源:創事記    作者:新智元 我要評論() 字號:T | T

  • [新智元導讀]《經濟學人》1月5日發表萬字長文,回顧了機器語言技術長達60多年的發展歷程,全文分為五個部分:人機對話、語音識別、機器翻譯、語義理解和未來展望。文章重點描述了機器語言技術的現狀,特別是深度學習帶來的進步,比如神經機器翻譯系統。作者說道,基于神經翻譯系統訓練使用的數據集不像基于短語的系統使用的那樣大,這給了較小的公司與Google這樣的巨頭競爭的機會。展望未來,作者說,言語是最典型的人類特征之一,所以很難想象機器可以像人類一樣真正地交談,卻不具備超級智能。二者應該是同時出現的。

      語言:發出聲音

      計算機在翻譯、語音識別和語音分析上做得比之前好了很多,Greene 說,但是,他們仍然不能理解語言的意義。

      “對不起,Dave。我恐怕不能這么做”,在 電影《2001: A Space Odyssey》中,計算機HAL 9000 用冷冰冰的聲音說到。它將離開飛船外出巡航的宇航員 Dave Bowman 拒之門外。HAL 對它的同伴(David)的拒絕,讓人們產生了對于機器智能的擔憂。

      電影在1968年播出時,讓計算機跟人類進行順暢的對話就好像人造飛船登上木星一樣遙遠。自那時起,人類在打造能對話、能用集成的自然語言回答問題的機器上取得了長足的進步。即便如此,人機之間的交流還是很困難的。如果今天再拍一部這樣的電影來反映當下的語言技術,對話應該是這樣的:“打開艙門,Hal”,“對不起,Dave,我有些不理解你的問題”。“打開艙門,Hal”,“我為你找到了eBay上有關艙門的物品列表,Dave。”

      有創造力和真實對話能力,并且能處理意外事件的計算機現在離我們依然很遙遠。被問到什么時候才能創造出智能的HAL、終結者或者Roise(三者都是電影中的機器人角色),人工智能研究者只能一笑而過。雖然除了少量的固定任務外,機器語言技術離取代人類還很遙遠,但是,至少它們現在已經好到足夠引起重視。它們能幫助人類把更多的時間花在那些只有人類可以完成的工作上。人工智能經歷了60年的研究,雖然大部分時間都是讓人失望的,但是在過去的幾年間,確實產生了一些不小的成果,已經與早期先鋒科學家們所期待的結果越來越近。

      語音識別取得了卓越的進步?;鞣胍彩且謊?,已經從一塌糊涂走到了可用的階段,至少已經可以理解一段文本的主旨,很快,機器的翻譯可能僅需要少量的人為修訂。計算機私人助理,比如蘋果的Siri,亞馬遜的Alexa 和谷歌的Now以及微軟的Cortana,現在已經能處理大量的問題,以多種方式進行組織,并以自然的語音給出準確和有用的答案。Alexa 現在甚至能完成 “給我講個笑話”這樣的請求,但是它只是從笑話數據庫中尋找答案。計算機本身并沒有幽默感。

      蘋果在2011年推出Siri時,體驗效果非常差,所以很多人都放棄了。根據咨詢機構Creative Strategies的數據,只有三分之一的智能手機用戶會使用私人助理,并且95%的人的使用只是嘗試。這些已經之前在使用過程中受挫的用戶可能并沒有意識到,現在這些程序有了多大的進步。

      1966年,John Pierce 在貝爾實驗室做研究。他帶領團隊建造了第一個晶體管和第一個通信衛星,這兩件事為他贏得了聲望,所以,美國國家科學院委派給他一個任務,對自動語言處理技術的研究做一個報告。在那段時間,學者們承諾,語言的自動翻譯要在幾年內攻克。

      但是后來這個報告的結果卻讓人震驚。在對機器翻譯、語音自動識別近10年的發展進行了綜述后,報告得出結論:錢應該用在一些重要的、實際的和相對短期的項目上?;瘓浠八?,語言技術的研究的前景被夸大了,并且很難有產出。

      賓夕法尼亞大學的語言學教授、語言數據聯盟的帶頭人Mark Liberman說,關于語言技術如何走過寒冬的故事,既包括實用性,也涉及普遍性。在那些“黑暗”的日子中,研究者一般都不指出自己的研究方法,并且用一種很難評估的方法來描述研究成果。但是,從20世紀80年代開始,美國 DARPA的成員 Charles Wayne 鼓勵他們嘗試另一種方法——通用任務。

      一步一步來

      研究人員會商定一套共同的做法,無論他們是教計算機語音識別,說話人識別,文本情緒分析,語法分析,語言識別,手寫識別或任何其他任務。他們將列出他們旨在改進的指標,共享用于訓練他們的軟件的數據集,并允許他們的結果由中立的外部人員進行測試。這使得這個過程更加透明。于是,研究資金再次開始涌入,語言技術開始改善,雖然很慢。

      圖:語言技術發展史,從1954到2016,來源,經濟學人

      語言技術的許多早期方法,特別是翻譯 ,陷入了一個概念性的死胡同:基于規則的方法。在翻譯中,這意味著嘗試編寫規則來分析原始語言的句子文本,將其分解成一種抽象的“語言”,并根據目標語言的規則重建它。這些方法早期確實表現出了一定的潛力。

      但是語言充斥著模糊和異常,所以這樣的系統是非常復雜的,并且當對超出它們設計的簡單集合的語句進行測試時容易出故障(broke down)。在采納了統計學的方法,也就是通常被稱為“暴力”的方法后,幾乎所有的語言技術都開始變得更好了,這依賴于軟件搜索大量的數據,尋找模式和從先例學習。例如,在解析語言(將其分解成其語法組件)時,軟件從已經被人類解析的大量文本中學習。它使用它學到的東西來對一個以前沒見過的文本進行最佳猜測。

      在機器翻譯中,軟件掃描已經由人類翻譯的數百萬字,再次尋找模式。在語音識別中,軟件從記錄的主體和人類進行的轉錄中學習。由于處理器的能力不斷增長,數據存儲的價格下降,最重要的是,可用數據的爆炸性增長,這種方法最終取得了豐碩成果。

      幾十年來已知的數學技術開始大顯身手,有大量數據的大公司有望受益。那些被像BabelFish 這樣的在線工具提供的不當翻譯搞得歇嘶底里的人開始對谷歌翻譯更有信心。

      蘋果說服了數百萬 iPhone 用戶不僅通過手機對話,而且對手機說話。大約5年前,隨著深度神經網絡(DNN)和深度學習的出現,他們開始取得突破。這種網絡經常被吹捧為具有與人類大腦類似的特性:軟件中的“神經元”是相互連接的,并且在學習過程,這種連接可以變得更強或更弱。

      但是 Nuance 公司研究主管 Nils Lenke說,事實上“DNN只是另一種數學模型”,其基礎幾十年前就已經奠定。真正改變的是硬件條件。

      幾乎是偶然地,DNN 研究人員發現,用于在諸如視頻游戲的應用中流暢地渲染圖形的圖形處理單元(GPU)也在處理神經網絡方面非常有效。在計算機圖形學中,基本的小形狀根據相當簡單的規則移動,但是有很多形狀和許多規則,需要大量的簡單計算。相同的GPU用于微調分配給DNN中的“神經元”的權重,因為它們搜索數據來學習。

      該技術已經極大地提升了各種深度學習的質量,包括手寫識別,人臉識別和圖像分類。現在他們正在幫助改進各種語言技術,通常能帶來高達30%的提升。這已經將語言技術從零星的使用,變為真正很好的技術。但到目前為止,還沒有人完成從好到“可信賴的最好”的轉變。

      語音識別:我能聽懂你


     

      在理解人類的語音上,計算機取得了長足的進步

      當人說話時,空氣通過肺部,使得聲帶振動,其通過空氣發出特征波形。聲音的特征取決于發音器官的位置,特別是舌頭和嘴唇的位置,并且聲音的特征性質來自某些頻率的能量峰值。元音有稱為“共振峰”的頻率,其中兩個頻率通常足以區分一個元音與另一個元音。例如,英語單詞“fleece”中的元音在300Hz和3000Hz處具有其前兩個共振峰。輔音有自己的特征。

      理論上,將這種聲音流轉換成轉錄的語音是很簡單的。與其他語言技術一樣,識別語音的機器根據先前收集的數據進行訓練。在這種情況下,訓練數據是由人類轉錄文本的聲音記錄,使得軟件同時擁有聲音和文本輸入,所有它要做的是對二者進行匹配。

      機器在處理如何以與人類在訓練數據中相同的方式轉錄給定的聲音塊上變得更好。傳統的匹配方法是一種稱為隱馬爾科夫模型(HMM)的統計技術,主要是基于機器之前做的工作進行猜測。最近,語音識別也從深度學習中獲益良多。

      英語有約44個“音素”,組成語言的聲音系統的單位。 P和b是不同的音素,因為它們用于區分諸如pat和bat的詞。“p ”的發音有時候是送氣的,如在“party”一次中,p有時候又不送氣,如在“spin”中 。如果計算機聽到音素s,p,i和n相繼出現,它應該能夠識別出是詞“spin”。

      但是現場演講的對于機器來說很困難。因為聲音不是單獨發音,一個音素接著另一個,它們大多是在一個恒定的流,找到邊界不容易。音素也根據上下文而不同。 并且,揚聲器在音色和音高以及重音方面不同。對話遠不如仔細聽寫清晰。人們在說話的過程中的停頓比他們意識到的更頻繁。

      所有這一切,技術已經逐漸克服了許多這類問題,因此語音識別軟件的錯誤率多年來穩步下降,然后隨著深度學習的引入急劇下降。麥克風已經更好,更便宜。隨著無處不在的無線互聯網,語音記錄可以輕松地傳送到云中的計算機進行分析,甚至智能手機現在都經常有足夠的計算能力來執行這項任務。

      同義詞識別:Bear arms or bare arms?

      也許語音識別系統最重要的特征是它對某人可能會說什么或其“語言模型”的預期。與其他訓練數據一樣,語言模型基于大量真實的人類言語,并轉錄成文本。當語音識別系統“聽到”聲音流時,它對所說的內容做出許多猜測,然后基于它所具有的單詞,短語和句子的種類來計算它找到正確的、此前見過的訓練文本的幾率。

      在音素級別,每種語言都有允許或者禁止的字符串 。同樣的話語。一些字符串比其他更常見。 在做出關于同音詞的猜測時,計算機將會記住在其訓練數據中,短語“擁有武器的權利”(the right to bear arms)比“裸露手臂的權利”(the right to bare arms)出現得多,因此將做出正確的猜測。

      根據特定說話者進行訓練大大減少了軟件的猜測工作。對于那些愿意更長時間地訓練軟件的人,可以獲得接近99%的準確性(意味著每一百個單詞的文本,被錯誤地添加,省略或改變的不超過1個)。一個好的麥克風和一個安靜的房間會更有效。

      提前知道說話者可能談論什么樣的事情也會增加準確性。像“靜脈炎”和“胃腸道”這樣的詞在一般話語中不常見。但是這些詞在醫學中是常見的,因此創建經過訓練以查找這些詞的軟件會明顯改善結果。

      與所有其他語言技術領域一樣,深度學習大大降低了錯誤率。2016年10月,微軟宣布,其最新的語音識別系統已經與人類速記員在識別 Switchboard Corpus中的語音上達到相同水平。

      Switchboard Corpus 的錯誤率是一個廣泛使用的基準,因此可以與其他的質量改進聲明進行比較。十五年前,語音識別質量停滯不前,錯誤率為20-30%。微軟的最新系統,有六個神經網絡并行運行,錯誤率已降到5.9%,與人類轉錄的相同。微軟首席演講科學家黃學東表示,他原本的預計是,還需要兩三年才能達到人類水平。

      實驗室的進步現在正應用于現實世界的產品中。越來越多的汽車配備有各種聲控的控制,但是所涉及的詞匯有限,這確保了高精度。麥克風或者通常具有窄拾音區域的麥克風陣列在識別組中的相關說話者方面越來越好。

      一些問題仍然存在。兒童和老人說話者,以及在房間里移動的人,在識別上是困難的。背景噪聲仍然是一個大問題,如果它與訓練數據中的不同,軟件則很難進行識別。例如,微軟為企業提供了一個稱為CRIS的產品,允許用戶為背景噪聲,特殊詞匯和其他在特定環境中遇到的特別語音識別系統。這可能是有用的。

      但是對于一臺計算機來說,知道一個人所說的只是一個開始。兩者之間順暢的交互,也就是在幾乎每個科幻故事中出現的那種,需要能夠說話的機器。

      機器翻譯:超越巴別塔

    計算機翻譯變得驚人的好,但仍需要人類的輸入。

      在《星際旅行》中,有“宇宙翻譯器”;在《銀河系搭車客指南》中,有可以方便地進入耳朵的“巴別魚”(Babel Fish)??蘋霉適輪?,那些來自遙遠文明的人們相遇時自然需要某種設備來讓他們能夠交談。高質量的自動翻譯技術似乎比其他語言技術更加神奇,因為對許多人來說,學習一種以上的語言已經足夠費勁,更別說把一種語言翻譯為另一種語言。

      這個想法從20世紀50年代以來一直存在,計算機翻譯也一直作為新奇的“機器翻譯”(MT)為人所知。這個概念可以追溯到冷戰時期,當時美國科學家試圖讓計算機將俄語翻譯為英語。他們的靈感來自第二次世界大戰的代碼破解的成功,這帶來了計算機技術的發展。對他們來說,在俄語文本里的西里爾字母只是英語的編碼版本,把它變成英語只是一個解碼的問題。

      IBM和喬治城大學的科學家都認為這個問題很快就能破解。他們在計算機上編寫了六個規則和一個250個詞匯的詞匯表,于1954年1月7日在紐約進行了一次演示,并自豪地宣稱已經成功完成60個俄語句子的自動翻譯,包括“Mi pyeryedayem mislyi posryedstvom ryechyi”,這句話被正確地翻譯為“ 我們通過講話傳達思想。”喬治城大學的Leon Dostert是這個項目的首席科學家,他大膽地預測三到五年內,機器翻譯將完全實現,而且將是“一個完美的事實”。

      然而,經過十多年的研究,1966年由John Pierce主持的一個委員會會議發表了一份報告,報告的導言中提到,機器翻譯的結果令人失望,并敦促研究人員集中精力于狹義的,可實現的目標,如自動化詞典 。政府贊助的MT研究開始進入冬眠,并持續了將近二十年。這期間的一切研究工作都是由私人公司支持進行的。其中最引人注目的是Systran系統翻譯軟件,它主要為美軍提供粗略的翻譯。

      科學家們發現基于規則的機器翻譯方法陷入困境。在他們繼續完善這個6條規則的系統之后,他們相信如果他們把更多的規則編程給計算機,翻譯系統將能變得更加復雜和準確。然而事與愿違,系統翻譯的內容出現更多無意義的句子。添加額外的規則,用現在的軟件開發人員的話來說,是沒有“擴展”。

      除了編程中大量的語法規則和例外帶來的困難,一些早期的觀察者注意到一個概念上的問題。即一個單詞的含義通常不僅取決于其字典定義和上下文語法,而且取決于句子其余部分的含義。以色列MT領域的先導Yehoshua Bar-Hillel注意到“the pen is in the box”和“the box is in the pen”這兩句話中,“pen”的翻譯應該是不同的:能夠裝下“盒子”的“pen”應該是“圍欄”,而不是“鋼筆”。

      怎樣教給機器足夠多的規則來進行這種區分?這要求機器要有一些關于真實世界的知識,但這遠遠超出了機器或者當時的程序員的能力。二十年后,IBM的科學家偶然發現了一種可以恢復對MT的樂觀態度的方法。IBM的Candide系統是第一次使用統計概率而非人為制定的規則進行機器翻譯的嘗試。統計是“基于短語”的機器翻譯,像語音識別一樣,需要用來學習的訓練數據。 Candide使用加拿大的《國會議事錄》作為訓練數據,這是用法語和英語出版該國議會辯論,為當時的統計翻譯提供了大量的數據?;詼逃锏姆椒芄蝗繁5ゴ實姆朧實鋇乜悸侵芪У牡ゴ?。

      但當時的翻譯質量并沒有取得飛躍。直到谷歌決定使用它的搜索引擎的所有數據來訓練其翻譯系統。2007年,谷歌翻譯從基于規則的系統(由Systran提供)轉變為它自己的基于統計的系統。為了構建這個系統,谷歌搜尋了一個萬億個網頁,從中尋找似乎是另一個語言的對應的任何文本。例如,兩個頁面設計相同,但有不同的單詞,或者有一些提示,例如一個網頁的地址以/ en結尾,另一個以/ fr結尾。根據谷歌翻譯總工程師Macduff Hughes的說法,使用大量數據的簡單方法似乎比使用較少數據的復雜方法更有前途。

      對平行文本(語言學家稱之為語料庫)的訓練創建了一種“翻譯模型”,它不是產生目標語言的一個翻譯,而是一系列可能的翻譯。下一步將這些目標語言的翻譯放到單語語言模型中,檢查其可能性。這實際上是一組關于目標語言中句式正確的句子可能的樣子的期望。單語言模型不太難構建。(人工翻譯的平行語料庫很難得到;但大量單語訓練數據不難得到。)與翻譯模型一樣,語言模型使用統計方法從訓練數據中學習,然后將輸出的翻譯模型按照似然性排序。

      統計機器翻譯重新激發了MT領域的樂觀情緒?;チ沒Ш蕓旆⑾諫oogle翻譯遠遠優于之前使用的基于規則的在線翻譯工具,例如雅虎的BabelFish。雖然統計翻譯系統仍然有錯誤——有時是輕微的錯誤,有時的翻譯結果很滑稽,有時是嚴重的錯誤,或者輸出毫無意義的結果。這與語言對相關,如“漢語 - 英語”是兩種結構相當不同的語言,兩者間的翻譯結果就不盡如人意。但成對的相關語言,如英語和德語之間的翻譯相當準確。但通常情況下,Google翻譯及其它競爭對手的免費在線翻譯,如微軟的Bing翻譯,為人民提供了一些可用的近似翻譯。

      這樣的系統變得更好,是再次得益于數字神經網絡中的深度學習。計算語言學協會自2006年以來每年都舉行關于MT的研討會。其中的一個活動是MT系統之間的競賽,用一組新聞文本進行翻譯比賽。2016年8月在柏林舉行的研討會中,基于神經網絡的MT系統得了第一,是102個MT系統中表現最好的。

      谷歌已經發布八個語言對的神經翻譯系統,將舊的翻譯系統和人工翻譯之間的質量差距大大縮小。這對于有大量可用的訓練數據,而且有緊密關系的語言(如歐洲的大部分語言)尤其如此。雖然其結果仍然明顯是不完美的,但已經比以前的翻譯更順暢而且更準確。英語和中文、英語和韓語之間的翻譯不是很好,但在這些語言對里神經翻譯系統也帶來了明顯的改善。

      可口可樂的類比

      基于神經網絡的翻譯系統實際上使用兩個網絡。一個是編碼器,輸入句子的每個詞被轉換成多維向量(一系列數值),并且每個新單詞的編碼會考慮句子中前部分的意思。意大利的Bruno Kessle是一個私人研究機構,該機構的研究人員Marcello Federico做了一個有趣的類比來比較神經網絡翻譯與基于短語的統計翻譯。他說,后者就像將可口可樂描述為糖、水、咖啡因以及其他成分。相比之下,前者是描述諸如流體性,黑色,有甜度、會起泡等可口可樂的特征。

      源語句被編碼后,解碼器網絡將生成詞對詞的翻譯,并且同樣會考慮每個詞前面的詞。但假如代詞含義需要取決于較長句子中較早出現的詞時,就可能導致問題。這個問題通過“注意力模型”(attention model)來減輕,該模型這有助于保持對緊鄰上下文之外的句子中的其他單詞的關注。

      神經網絡翻譯需要大量的計算能力,既要用于系統的原始訓練,又要用于系統的使用。這種系統的核心是使深度學習革命成為可能的GPU,或者是像Google的張量處理單元(TPU)這樣的專門硬件。較小的翻譯公司或者研究人員通常需要在云中租用這種處理能力?;諫窬胂低車難盜分惺褂玫氖菁幌窕詼逃锏南低襯茄?,這應該給了較小的公司與Google這樣的巨頭競爭的機會。

      全自動化、高質量的機器翻譯還有很長的路要走。現在,還有幾個問題。所有當前的機器翻譯都是逐句進行的。如果一個句子的意思取決于前面的句子的意思,自動化系統就會犯錯誤。長句,盡管有注意力模型這樣的小技巧,可能還是很難翻譯?;諫窬緄南低騁蔡乇鵡汛聿懷<駛?。

      對于許多語言對來說,訓練數據也太少了。歐洲語言之間的訓練數據很豐富,因為歐盟有機構在歐盟24種官方語言之間制作了大量的人工翻譯材料。但對于較小的語言來說,這樣的資源非常少。例如,很少有希臘語烏爾都語的并行文本可用于訓練機器翻譯系統。因此,聲稱提供這種翻譯的系統實際上通常都是通過橋接語言( bridging language)來進行的,而且這個橋接語言基本上總是英語。這就涉及兩次翻譯,而不是一次,出錯的可能性也會加倍。

      即使機器翻譯還不完美,技術也可以幫助人類更快更準確地翻譯。“翻譯記憶”,存儲已翻譯的詞語和段落的軟件,早在上世紀80年代就開始使用。對于經常翻譯相同材料(例如說明手冊)的人,他們提供已翻譯的信息,節省了大量的重復和時間。

      類似的方法用于在處理狹窄的真實世界領域的文本上訓練MT引擎,例如醫學或法律。隨著軟件技術的精煉和計算機變得更快,訓練變得更容易和更快。在歐盟的支持下開發并由一些內部翻譯使用的免費軟件,如 Moses,可以由任何人使用平行語料庫進行訓練。例如,醫學翻譯專家可以僅僅對醫療翻譯系統進行訓練,這使得它們更準確。

      語言復雜性的另一面方面,可以針對人們在語音中使用的更短和更簡單的語言來優化MT引擎,以便實現粗略但接近實時的語音到語音翻譯。這正是微軟的 Skype 翻譯器所做的。它的質量是通過訓練語音提高(比如電影字幕和常用的口語短語)而不是通過歐洲議會產生的并行文本提高。

      翻譯管理也受益于創新,聰明的軟件允許公司迅速結合最好的MT,翻譯記憶,個人翻譯的定制等。翻譯管理軟件旨在切斷那些一直作為客戶和自由翻譯隊伍之間的中介。行業最喜愛的 Smartling 的創始人杰克·韋爾德(Jack Welde)說,未來翻譯客戶將選擇,翻譯需要多少人工干預的。一個快速自動的方法可以為短期內容的短期內容,但最重要的內容仍然需要一個完全手工制作和編輯版本。Welde說,他注意到MT既有促進者,又有詆毀者,他說他兩者都不認同:“如果你采取教條主義,你就沒有針對客戶的需求進行優化。

      翻譯軟件會越來越好。不僅工程師會不斷調整他們的統計模型和神經網絡,而且用戶自己將改進自己的系統。例如,一個小而受人欽佩的初創公司 Lilt 使用基于短語的 MT 作為翻譯的基礎,但是一個易于使用的界面允許翻譯者校正和改進MT系統的輸出。每次這樣做,校正被反饋到翻譯引擎,其實時地學習和改進。用戶可以建立幾種不同的記憶 - 醫療,金融等等,這將有助于在該專業領域的未來翻譯。

      TAUS 是一個行業團體,最近發布了一份關于翻譯行業狀況的報告,稱“在過去幾年中,翻譯行業已經涌現出了新的工具,平臺和解決方案”。去年 JaUS van der Meer,TAUS的創始人和董事 寫了一篇題為“未來不需要翻譯者”的挑釁性博客文章,認為MT的質量將不斷改進,對于許多應用來說,不完美的翻譯已是足夠好的。

      未來的“翻譯者”可能更像是一個質量控制專家,決定哪些文本需要最注意細節并編輯 MT 軟件的輸出。這可能是必要的,因為計算機,無論它們已經變得多么復雜,都不能真正地掌握文本意味著什么。

      意義和機器學習:你在說什么?

      機器無法跟人類正常對話,因為他們不理解這個世界。

      在“黑鏡”中——一個不列顛科幻諷刺劇,設置了在不遠的未來一個反烏托邦社會中,一個年輕女人在車禍中失去了男朋友。朋友想幫助她緩解痛苦。死去的男人是社交網絡發燒友,他的賬號被用于復制成帶有他人格的聊天機器人。女人可以和聊天機器人文字聊天,后來他們可以對話。在系統學習更好的模擬他的過程中,他也變得越來越真實。

      這并不那么奇怪。如今計算機只要學習了適當的材料,完全可以的超真實的學會人類語言。它們目前還做不到真實的對話。真正人機直接的交互需要對世界有更廣泛的理解。缺乏這點,機器無法聊到很廣泛的話題,不能聊很久或者處理意外。

      然而,針對有限的任務訓練的機器可以表現得很出色。最明顯的例子是由技術巨頭創建的數字助理。用戶可以用各種自然的方式向他們提問:“倫敦的溫度是多少?”“外面的天氣怎么樣?”“今天會變冷嗎?”助理知道一些關于用戶的事情,例如他們在哪里生活和他們的家人,所以它們也可以是非常個性化的:“我的通勤路線看起來怎么樣?”“發短信給我的妻子,說我會在15分鐘內回家“。

      現在,蘋果的Siri每周收到20億份請求,這些請求被用于進一步的訓練。例如,蘋果的Siri知道用戶關于體育比分的每一種可能的提問方式。對于問圣誕老人的孩子,它也有一個令人愉快的答案。微軟從一些以前的自然語言平臺學到,約10%的人際交往是“閑聊”,從“給我講一個笑話”到“誰是你的爸爸?”,并使用這種聊天訓練它的數字助理——Cortana。

      Cortana 的寫作團隊包括兩個劇作家,一個詩人,一個編劇和一個小說家。Google 聘請了 Pixar (一家動畫電影制片廠)和The Onion(一家諷刺性報紙)的作家,使其新的Google Assistant 變得更加簡單。難怪人們經常感謝他們的數字助手做好的工作。助理的回答已經從“我的榮幸,一如既往”變化到“你不需要感謝我”。

      擅長語法

      自然語言平臺如何知道人們想要什么? 他們不僅識別一個人使用的詞,而且把話語根據語法和意義分解。語法解析相對比較發達,它是“自然語言處理”的成熟領域。但意義解析在“自然語言理解”之下,這是更難的。

      首先,解析。大多數人不太善于分析句子的句法,但是計算機已經變得非常擅長,盡管大多數句子在人類很少意識到的方式上是模糊的。公共噴泉上的標志:“這不是飲用水”。人類理解這意味著水(“這”)不是某種水(“飲用水”)。但是計算機可能很容易解析它說“這個”(噴泉)目前不在做某事(“飲用水”)。

      當句子變得更長時,語法上可能成立,但無意義的選項數量會成指數倍增?;鶻馕銎魅綰沃濫母鍪欽返?? 如果它知道一些詞的組合比其他詞更常見,可能對此有所幫助:短語“飲用水”被廣泛使用,因此,對大量英語訓練的解析器將評定這兩個詞可能加入一個名詞短語。一些結構比其他結構更常見:“名詞 動詞 名詞”可能比“名詞 動詞 名詞”更常見?;鶻馕銎骺梢約撲闥兇楹系淖芨怕?,并選擇最可能的。

      “詞法化”解析器可能做得更好。比如 Groucho Marx 的笑話,“一天早上我在睡衣里拍了一頭大象。它怎么跑到我睡衣里面的,我永遠不會知道。” 他第一句話是模棱兩可的(這使之成為一個笑話),在語法上,“我”和“一頭大象”可以附加到介詞短語“在我的睡衣”。但是一個詞法解析器會認識到“我[動詞短語]在我的睡衣里“比”我的睡衣中的大象“更常見,因此賦予該語法分析更高的概率。

      但意義比語法更難以確定。“男孩踢了球”和“球被男孩踢”具有相同的意義,但不同的結構。“時間就像箭一樣”可以意味著時間像箭一樣飛,或者有一種稱為“時間蒼蠅”的昆蟲喜歡箭頭。

      “誰在 Thor 扮演 ‘Thor’?”你的回答者可能不記得那位在Marvel超級英雄電影中扮演同名的Norse上帝的牛仔澳大利亞人。但當他問他的iPhone,Siri想出了一個意想不到的回答:“我沒有看到任何電影匹配‘托爾’在美國愛荷華州索爾,今天。” 托爾,愛荷華州,人口184,是成千上萬 的距離,和“雷神”,這部電影,已經走出電影院多年了。Siri 完全正確地解析了這個問題,但是答案是荒謬的,違反了語言學家稱為 pragmatics 的規則:人們使用的共同的知識和理解來理解他們聽到的、通常也是雜亂的人類語言。“你能拿到鹽嗎?”不是信息的請求,而是鹽。自然語言系統必須手動編程以處理人們期望它們的請求,而不是字面意義。

      多重選擇

      在談話過程中也建立了共享信息,這就是為什么數字助理可以在談話中變得靈活的原因。告訴助手,“我想和我的妻子去一家意大利餐館,”它可能建議一家餐廳。但是,然后問:“它靠近辦公室嗎?”,助理必須掌握“it”(餐廳)和“her”(妻子)的含義。Nuance 正在致力于一個可以處理這種類型挑戰的“門房”,但它仍然是一個原型。

      這樣的“門房”還必須提供營業的餐館。將請求鏈接到常識(知道沒有人想要被指到關門的餐廳)以及對真實世界的了解(知道哪些餐館是關門的)是語言技術的最困難的挑戰之一。

      常識,一種古老的觀察,將它編程到計算機更困難,Google 的 Fernando Pereira 說。自動語音識別和機器翻譯具有共同點:儲存了大量用于訓練機器的數據(用于語音識別的記錄和轉錄本,用于翻譯的并行語料庫)。但是沒有常識的訓練數據。

      大腦掃描: Terry Winograd

      Winograd 測試計算機對真實世界的“理解”

      圖靈測試為被用于評判真正的人工智能是否實現:如果計算機可以讓人們相信它是人類,就沒有理由說機器不是真正智能了。

      在計算機行業的很少有大咖的威望能與圖靈比肩,但一個大咖,以自己的名字命名了一個類似的挑戰:,斯坦福的計算機科學家Terry Winograd在他的博士論文中,為計算機提出了一個謎語:“市議會拒絕給示威者許可證,因為他們害怕暴力。誰害怕暴力?”

      它是一個完美的論證認知的點:許多對人來說很容易的東西對計算機來說是非常困難的。Winograd 先生在20世紀60年代和70年代進行AI研究,并開發了一個早期的自然語言程序,稱為 SHRDLU,可以執行命令并回答關于一組它可以操縱的形狀的問題:“找到一個比你所持有的更高的方塊,并把它放入盒子里。” 這項工作給 AI 界帶來了樂觀的情緒,但是 Winograd 先生后來和他們分道揚鑣了,不再致力于使機器變得聰明,而是讓他們更好地幫助人類。(這些陣營因哲學和學術而大幅分化。)他在斯坦福大學的成為 Larry Page的老師,之后,Page 作為聯合創始人加入 Google,Winograd 先生成為谷歌的客座研究員,幫助開發 Gmail。

      2011年,多倫多大學的 Hector Levesque 對那些通過開玩笑或者避免直接回答問題而“通過圖靈測試”的系統感到惱火。他后來要求借用 Winograd 的名字和他的論文的謎題的格式,提出一個更真實的機器“理解”的測試:Winograd 模式。它一整套問題的答案對人類是顯而易見,但需要計算機有一些推理能力和現實世界的知識才能完成。第一屆官方 Winograd 模式挑戰賽今年舉行,由語言軟件公司 Nuance 提供的25,000美元的獎勵給可以正確回答90%以上問題的程序。目前最好的只有只能正確回答 58%。

      雖然已退休,Winograd 先生還在繼續寫作和研究。他的一個學生正在研究一個谷歌眼鏡的應用程序。該應用程序將幫助自閉癥人士閱讀對話伙伴的面部表情,并提供佩帶者情緒狀態的信息。這讓他可以為自閉癥患者整合語言和非語言信息——這是自閉癥患者和計算機無法識別的。

      未來會走向何方?

      在“WALL-E”中,動畫片背景發生在未來,所有人類生活在一個太空飛船,在地球的環境已被廢棄后。 人類在智能懸浮椅子里嬉戲; 機器照顧他們的每一個需要,所以他們都是病態肥胖。 即使是船長也不是真的負責; 實際的飛行員是一個智能和邪惡的對話機器人—— Auto,像許多談論機器在科幻小說,他最終抓住權力。

      言語是典型的人類特征,所以很難想象機器可以像人類一樣真正地交談,而不想像他們的超級智能。 如果他們超級聰明,沒有人的缺陷,很難想象他們不想接管,不僅是因為他們好,也是為人類。 即使在一個相當仁慈的未來,如“WALL-E”,機器正在做所有的工作,很容易看到,那種狀態下,任何有挑戰性的事情都會對人有害。

      減少苦差事并讓人們做更有趣的工作的機器是件好事。從好的方面看,他們甚至可以創造額外的工作。但是任何大的調整對那些最不能適應的人來說是最痛苦的。社會變革帶來的動蕩,例如婦女的解放或勞動力市場的全球化 ,對一些人來說已經很難。當機器帶來這些變化時,他們變得更加困難,并且當這些機器看起來越來越像人類時更是如此。人們對待無生命的物體就像他們是活的: 機器說的越多,他們似乎越理解人,他們的用戶就越容易將人的特征歸因于他們。

      這提出了一個問題:到底怎么樣才是人類?語言被廣泛視為人類最有區分性的特征。 AI 研究人員堅持認為他們的機器不能像人一樣思考,但如果它們能像人一樣傾聽和談話,那么它們是什么呢?當人類教會更有能力的機器來使用語言時,二者之間明顯的界限將會模糊。

  • 加入收藏
  • [ 作者:新智元 ]
  • 分享到: 更多
    標簽:
  • 相關推薦
    · 機器語言技術60年沉思錄:Finding a Voice2017-01-13
    · 機器語言:Siri是如何完成牙牙學語的2013-09-23
  • 最新消息
    · 機器語言技術60年沉思錄:Finding a Voice2017-02-07
    · 電視行業除了物聯網,還能怎么玩?2017-01-13
    · 招聘銷售經理時應問的五個問題2017-01-09
    · 打破4個老生常談的職場迷思2016-12-30
    · 成就大事業用什么樣的經理人最靠譜?2016-12-19