美國(guó)科學(xué)家在最新一期《自然》雜志發(fā)表論文稱,他們開發(fā)了首塊可擴(kuò)展的基于深度神經(jīng)網(wǎng)絡(luò)的光子芯片,每秒可對(duì)20億張圖像進(jìn)行直接分類,而無(wú)需時(shí)鐘、傳感器或大內(nèi)存模塊,有望促進(jìn)人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域的發(fā)展。
模仿人腦工作的深度神經(jīng)網(wǎng)絡(luò)現(xiàn)在通常為計(jì)算機(jī)視覺、語(yǔ)音識(shí)別等提供支持。目前數(shù)字芯片上的消費(fèi)級(jí)圖像分類技術(shù)每秒可執(zhí)行數(shù)十億次計(jì)算,速度足以滿足大多數(shù)應(yīng)用,但更復(fù)雜的圖像,如識(shí)別運(yùn)動(dòng)物體、3D物體或人體顯微細(xì)胞分類仍面臨不少障礙。
首先,這些系統(tǒng)通常使用基于數(shù)字時(shí)鐘的平臺(tái),如圖形處理單元(GPU)來實(shí)現(xiàn),這將它們的計(jì)算速度限制在時(shí)鐘頻率上,計(jì)算必須逐個(gè)進(jìn)行。其次,傳統(tǒng)電子設(shè)備將內(nèi)存和處理單元分開,數(shù)據(jù)穿梭耗費(fèi)時(shí)間。此外,原始圖像數(shù)據(jù)通常需要轉(zhuǎn)換為數(shù)字電子信號(hào),耗時(shí)較長(zhǎng),而且需要大內(nèi)存單元來存儲(chǔ)圖像和視頻,引發(fā)潛在的隱私問題。
鑒于此,賓夕法尼亞大學(xué)電氣和系統(tǒng)工程副教授弗瑞茲·阿發(fā)雷托尼等人開發(fā)出一款可擴(kuò)展芯片,每秒可對(duì)近20億張圖像進(jìn)行分類。這是第一個(gè)完全在集成光子設(shè)備上以可擴(kuò)展方式實(shí)現(xiàn)的深度神經(jīng)網(wǎng)絡(luò),整個(gè)芯片大小只有9.3平方毫米,消除了傳統(tǒng)計(jì)算機(jī)芯片中的4個(gè)主要耗時(shí)障礙:光信號(hào)到電信號(hào)的轉(zhuǎn)換、將輸入數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制格式、大存儲(chǔ)模塊以及基于時(shí)鐘的計(jì)算。
阿發(fā)雷托尼解釋說,該芯片上的光學(xué)神經(jīng)元通過光線相互連接,形成一個(gè)由許多“神經(jīng)元層”組成的深層網(wǎng)絡(luò)。信息通過“神經(jīng)元層”傳遞,每一步都對(duì)圖像分類,使快速處理信息成為可能,最新芯片可在半納秒內(nèi)完成整個(gè)圖像分類,而傳統(tǒng)數(shù)字計(jì)算機(jī)芯片在同樣時(shí)間內(nèi)只能完成一個(gè)計(jì)算步驟。
研究人員表示,可通過添加更多神經(jīng)層來擴(kuò)展這一深層網(wǎng)絡(luò),使芯片能以更高分辨率讀取更復(fù)雜圖像中的數(shù)據(jù)。此外,任何可轉(zhuǎn)換為光的信號(hào),如音頻和語(yǔ)音,都可使用這項(xiàng)技術(shù)幾乎瞬間進(jìn)行分類。