您當前的位置:業界 >  >> 
實時:谷歌發布史上最大“通才”AI模型,可讓機器人更自主

時間:2023-03-09 08:45:48    來源:電子工程網


【資料圖】

來源:大半導體產業網

據報道,近日,谷歌和柏林工業大學的團隊重磅推出了史上最大的視覺語言模型——PaLM-E。通過PaLM-540B語言模型與ViT-22B視覺Transformer模型相結合,PaLM-E參數量高達5620億(GPT-3的參數量為1750億)。

作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執行各種復雜的機器人指令而無需重新訓練。谷歌研究人員還觀察到一些有趣的效果,這些效果顯然來自PaLM-E的核心——大型語言模型。PaLM-E表現出了“正遷移”能力,即它可以將從一項任務中學到的知識和技能遷移到另一項任務中,從而與單任務機器人模型相比具有“顯著更高的性能”。

谷歌研究人員計劃探索PaLM-E在現實世界場景中的更多應用,例如家庭自動化或工業機器人。他們希望PaLM-E能夠激發更多關于多模態推理和具身AI的研究。

關鍵詞:

X 關閉

X 關閉