计算机视觉(CV)和自然语言处理(NLP)早先是两个较为d立的研究L域。CV 重点关注如何用计算机代替人眼对目标完成识别、跟踪、测量等任务,对图像进行处理;NLP 则研究计算机如何处理、运用自然语言,包括语言生成、问答、对话等任务。近年来,以深度神经网络为代表的机器学习和模式识别技术被广泛应用于 CV 和 NLP L域,取得了目前先进的效果。
近年来,研究者们试图将动作控制也引入到「视觉-语言」任务的框架中。吴琦将此类任务命名为 V3A(Vision, Ask, Answer, Act),在给定视觉输入后,摩登7希望机器能够提出问题、回答问题、并通过和人以及机器之间的语言交流执行某些动作。
例如,「Vision+Ask」的任务包含视觉问题生成、根据问题生成查询、图像描述等;「Vision+Answer」的任务包含视觉问答、视觉对话等;「Vision+Act」的任务包含指称表达、视觉对齐(visual grounding)、语言引导的视觉导航、具身视觉问答、具身指称表达等。
| 资料获取 | |
| 服务机器人在展馆迎宾讲解 |
|
| 新闻资讯 | |
| == 资讯 == | |
| » 机器人的自由度,直接影响到机器人的机动性 | |
| » 机器人系统的结构:机械手、环境、任务 和 | |
| » 2025年智能焊接机器人产业发展蓝皮书: | |
| » 商用服务机器人控制系统的组成:任务规划, | |
| » 具身智能工业场景,精准、重复的任务流程成 | |
| » 智能机器人的传感器的种类:内部传 感器和 | |
| » 前台智能机器人对传感器的要求:基本性能要 | |
| » 各地对具身智能核心发展需求:产业端落地, | |
| » 2025年中国具身智能产业发展规划与场景 | |
| » 按控制方式进行分类,机器人分为二种:非伺 | |
| » 按机械手的几何结构进行分类,机器人分为三 | |
| » 智能安防巡检机器人的起源与发展历史,De | |
| » 智能交互机器人的主要部件选型参考方案:伺 | |
| » 智能接待机器人的关节机构设计方案参考:运 | |
| » 智能接待机器人机构设计模型分析:机器人运 | |
| == 机器人推荐 == | |
服务机器人(迎宾、讲解、导诊...) |
|
![]() |
| 消毒机器人排名 移动消毒机器人 导览机器人 |