google公布了一个多模态(Multimodal)AI模型PaLM-E,它可以理解文字和图像,还能进行文字输出和推理。
从论文中看到,结合传感器、可编程机器人,已经可以实现“从抽屉里拿米脆片给我”这样需要结合语言和视觉能力才能完成的任务。
科幻作品里的那种全能机器人进入千家万户的日子已经不远了……
论文全文:网页链接
google公布了一个多模态(Multimodal)AI模型PaLM-E,它可以理解文字和图像,还能进行文字输出和推理。
从论文中看到,结合传感器、可编程机器人,已经可以实现“从抽屉里拿米脆片给我”这样需要结合语言和视觉能力才能完成的任务。
科幻作品里的那种全能机器人进入千家万户的日子已经不远了……
论文全文:网页链接