尹人黄色性交网黄曰片毛片|国产一级Av免费观看|曰韩色图视频免费在线黄视频|超碰97在线免费播放|五月情色丁香亭亭|亚洲无码在线大全|国产成人+亚洲+欧洲在线|欧美丰满少妇人妻精品性爱不卡|久草视频免费在线观看免费|日本一黄色网亚洲第一成视频

您的位置:首頁 > 科技

遷移學(xué)習(xí):教AI提取抽象知識

昂貴、罕見、難駕馭、有破壞性,人生哪有一帆風(fēng)順,人工智能的“一生”也會遇到很多難以進(jìn)行“訓(xùn)練”的場景,也就是靠大量常規(guī)數(shù)據(jù)無法訓(xùn)練的場景。

就好像拍電影,要拍《少年派的奇幻漂流》,需要一只老虎做演員,怎么辦?買好多只這種珍稀動物,讓馴獸師教它演戲,到最后還任憑它因劇情需要而死去?

這肯定不行。于是李安讓特技團(tuán)隊“造”出一只相似度99%的虛擬虎,昂貴、罕見、難駕馭、有破壞性的難題迎刃而解,而以此為代表作品的虛擬場景構(gòu)建技術(shù)也成為遷移學(xué)習(xí)的一種方法。

日前,有媒體轉(zhuǎn)載《日本經(jīng)濟(jì)新聞》報道,日本在人工智能“遷移學(xué)習(xí)”研究方面取得進(jìn)步。日本東北大學(xué)將遷移學(xué)習(xí)應(yīng)用在模仿語氣的對話系統(tǒng)上,松下公司將其應(yīng)用在了判定特定人群病情的軟件上,被視作加速人工智能應(yīng)用落地的研究進(jìn)展。

AI的學(xué)習(xí)為什么要遷移,又如何遷移?它如何讓AI更智慧?科技日報記者1月3日專訪了北京語言大學(xué)教授荀恩東、智能一點公司CTO莫瑜等行業(yè)專家,聽聽他們的解讀。

舉一反三:用一般數(shù)據(jù)解決特殊問題

“有些模型的識別率已經(jīng)超過了人的識別率。”荀恩東說,人們越來越擅長訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),但是高準(zhǔn)確率是建立在現(xiàn)實情況與訓(xùn)練情況相吻合的基礎(chǔ)上,即實戰(zhàn)與演習(xí)相一致。

如果是預(yù)設(shè)之外,就很難達(dá)到預(yù)期的識別準(zhǔn)確率。“機(jī)器有機(jī)器的預(yù)設(shè)之外。”荀恩東以聲音識別為例告訴記者:比如太濃的口音、太大的背景噪音等,這些和人的“困難場景”一致,但是機(jī)器還會受到遠(yuǎn)場噪音的影響,“例如太空曠的地方,會有回音,影響識別”。

那是不是每遇到一個特殊場景,都要重新建模,輸入大量的樣本讓機(jī)器重新學(xué)習(xí)一次呢?答案當(dāng)然是否定的。

因為我們首先要考慮成本因素,這就是文章開頭提到的“昂貴、有破壞性”特點。其次就是“難駕馭”的問題了——即使我們能不惜成本地反復(fù)建模、學(xué)習(xí)新樣本,但有些特殊場景的樣本很罕見,或者無法控制其能產(chǎn)生的成本,也就無法達(dá)到組成訓(xùn)練集的要求。比如《日本經(jīng)濟(jì)新聞》報道的,有些罕見病的診斷分析案例只有幾十件,這種情況下,如何讓人工智能擁有判斷的能力?

“現(xiàn)實世界真混亂啊”,當(dāng)AI從模型訓(xùn)練來到“塵世”,它可能會有這樣的慨嘆,大量的全新場景涌過來,“生搬硬套”根本使不上。

成功的模型目前仍然極度依賴數(shù)據(jù),但能夠獲得大量可用數(shù)據(jù)的情況卻因領(lǐng)域不同,而分布極度不均。資料顯示,目前少數(shù)數(shù)據(jù)是公開的,還有不少數(shù)據(jù)是有專利的,或者購買起來很昂貴,剩下更多領(lǐng)域的數(shù)據(jù)是無法獲得或者沒有積累的。也就是說,AI的“訓(xùn)練題庫”完全無法覆蓋“考試題庫”。

為了解決新的任務(wù),“遷移學(xué)習(xí)”成為人們希望人工智能擁有的能力。“要能用一般的數(shù)據(jù)解決特殊的問題,用易獲得的數(shù)據(jù)解決難收集數(shù)據(jù)的問題。”北京語言大學(xué)教授荀恩東說,它能拓展人工智能的實際應(yīng)用范圍。

“就是舉一反三的能力,”莫瑜解釋,比如,要讓機(jī)器在識別貓之后很容易識別狗,就需要構(gòu)建一個識別貓的模型,包含一些特征,例如尾巴、腿、胡須等,這些特征在識別狗的時候可以被機(jī)器利用上。

說起來很簡單,但這意味著神經(jīng)網(wǎng)絡(luò)有能力存儲并提取“概念性”的東西,也就是存儲和提取抽象的知識,而“不局限于給數(shù)據(jù)、出結(jié)果這種端對端的輸入輸出”,荀恩東說。

眼花繚亂:不同領(lǐng)域需要不同策略

“數(shù)據(jù)層面、特征層面、模型層面的內(nèi)容都可以進(jìn)行遷移。”荀恩東說,遷移學(xué)習(xí)并不是某個固定的算法或者具體的技術(shù),更多地是一種解決問題的策略。

遷移學(xué)習(xí)之前被稱為自適應(yīng)學(xué)習(xí)。它的初衷是節(jié)約人工標(biāo)注樣本的時間,讓模型可以通過已有的標(biāo)簽數(shù)據(jù)向未標(biāo)簽數(shù)據(jù)遷移。“某個特定模型里的標(biāo)簽數(shù)據(jù)是機(jī)器能夠識別的,機(jī)器根據(jù)標(biāo)簽來捕捉識別特點,如果成功將模型遷移至未標(biāo)簽數(shù)據(jù),那么這些數(shù)據(jù)不用重新建模就可以使用。”荀恩東說。

遷移學(xué)習(xí)具體怎么做呢?

“遷移學(xué)習(xí)就是開發(fā)一系列如何遷移的算法。”莫瑜解釋,怎么讓在一個領(lǐng)域工作的算法在少量新數(shù)據(jù)的情況下可以應(yīng)用到新的領(lǐng)域?例如,可能存在一種算法,不需要改造,在聽懂普通話的AI開發(fā)出來之后,直接就能聽懂廣東話。“一般機(jī)器學(xué)習(xí)算法研究如何解決問題,而遷移學(xué)習(xí)要創(chuàng)造遷移算法,實現(xiàn)從一個領(lǐng)域的問題解決方案遷移到另一個相似領(lǐng)域。”據(jù)稱,在過去20年中,科學(xué)家積累了上百種遷移學(xué)習(xí)的算法。

隨著研究的深入,遷移學(xué)習(xí)的策略越來越多,也取得了不小的進(jìn)展。第四范式首席科學(xué)家楊強(qiáng)曾在一次演講中介紹,將機(jī)器學(xué)習(xí)的目標(biāo)問題“打散”,即把問題的結(jié)構(gòu)和內(nèi)容分離開,會發(fā)現(xiàn)不同問題之間的共性。一篇發(fā)表在《科學(xué)》雜志上的文章顯示,將手寫字體識別上的結(jié)構(gòu)和手寫方式區(qū)分開之后,結(jié)構(gòu)的學(xué)習(xí)采用單個數(shù)據(jù)就能訓(xùn)練。此外,層次化的系統(tǒng)更容易幫助構(gòu)建機(jī)器學(xué)習(xí)的遷移;分階段地從已訓(xùn)練領(lǐng)域到新領(lǐng)域的多步傳導(dǎo)式遷移也被證明是適用的策略。

可見,“遷移大法”的原則是在實現(xiàn)由A領(lǐng)域向B領(lǐng)域的遷移時,盡量“平滑”地推動——兩個域的表征要盡可能相似,或者通過一些操作增加兩個域表征的相似性,甚至創(chuàng)建出“通用”的表征。例如ImageNet花費了多年,用數(shù)千個小時來創(chuàng)建,“基于ImageNet數(shù)據(jù)集的圖像識別深度神經(jīng)網(wǎng)絡(luò)模型,經(jīng)常被用來作為圖像特征抽取,應(yīng)用到其他圖像任務(wù)。”莫瑜說。一篇名為《基于深度學(xué)習(xí)和遷移學(xué)習(xí)的識花實踐》的文章進(jìn)行了類似“百度經(jīng)驗”的分享,就是基于ImageNet數(shù)據(jù)集,示范如何將一個原來只能識別花的圖像的深度卷積網(wǎng)絡(luò),遷移到識別花朵類型、具體品種的新任務(wù)上。通過“抽取圖像特征”“準(zhǔn)備訓(xùn)練集,驗證集和測試集”“訓(xùn)練網(wǎng)絡(luò)”等步驟,這一“遷移”得到了88%的識別正確率,計算時間只用大概半小時,比完成從零開始重新建?旌芏。

歷久彌新:或成機(jī)器學(xué)習(xí)商業(yè)新驅(qū)力

事實上,遷移學(xué)習(xí)和人工智能一樣并不是新概念,在近幾年又恢復(fù)了研究熱度。2016年,前百度首席科學(xué)家吳恩達(dá)曾表示,遷移學(xué)習(xí)將會是繼監(jiān)督學(xué)習(xí)之后的下一個機(jī)器學(xué)習(xí)商業(yè)成功的驅(qū)動力。楊強(qiáng)也認(rèn)為,機(jī)器學(xué)習(xí)的明天是在小數(shù)據(jù)、個性化、可靠性上,這取決于遷移學(xué)習(xí)的發(fā)展。

國際巨頭也在著力于遷移學(xué)習(xí)的實踐,AlphaGo的開發(fā)團(tuán)隊DeepMind在嘗試對機(jī)器人進(jìn)行遷移學(xué)習(xí)的訓(xùn)練。他們先從一只胳膊開始——在仿真環(huán)境中訓(xùn)練一個機(jī)械臂移動,訓(xùn)練好之后,把知識遷移到真實的機(jī)械臂上,真實的機(jī)械臂稍加訓(xùn)練可以做到和仿真一樣的效果。

谷歌通過仿真系統(tǒng)訓(xùn)練無人車駕駛,然后遷移到實際駕駛中。傳授硅谷企業(yè)課程的在線大學(xué)優(yōu)達(dá)學(xué)城也開源了用來進(jìn)行無人駕駛汽車工程納米學(xué)位教學(xué)的模擬器,仿真更方便獲取不同類別的數(shù)據(jù),更方便多因素并行地訓(xùn)練學(xué)習(xí)。

“我們對話機(jī)器人也有類似問題,在一個客戶上訓(xùn)練的對話系統(tǒng),怎么應(yīng)用到新的客戶,而不用從零開始。”莫瑜說,遷移學(xué)習(xí)的應(yīng)用范圍是很廣泛的。

“遷移學(xué)習(xí)大多是在解決實際問題,AI應(yīng)用層面的內(nèi)容多一些,”荀恩東說,“在實踐中也有各種各樣的做法,我國在AI的應(yīng)用場景開發(fā)上,還是不落人后的。”

(新媒體責(zé)編:wb001)

聲明:

1、凡本網(wǎng)注明“人民交通雜志”/人民交通網(wǎng),所有自采新聞(含圖片),如需授權(quán)轉(zhuǎn)載應(yīng)在授權(quán)范圍內(nèi)使用,并注明來源。

2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。

3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請在30日內(nèi)進(jìn)行。電話:010-67683008

時政 | 交通 | 交警 | 公路 | 鐵路 | 民航 | 物流 | 水運 | 汽車 | 財經(jīng) | 輿情 | 郵局

人民交通24小時值班手機(jī):17801261553 商務(wù)合作:010-67683008轉(zhuǎn)602

Copyright 人民交通雜志 All Rights Reserved 版權(quán)所有 復(fù)制必究 百度統(tǒng)計 地址:北京市豐臺區(qū)南三環(huán)東路6號A座四層

增值電信業(yè)務(wù)經(jīng)營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務(wù)所 李大偉

京公網(wǎng)安備 11010602130064號 京ICP備18014261號-2  廣播電視節(jié)目制作經(jīng)營許可證:(京)字第16597號