- 让创新获得认可二维码自定义二维码网站自定义网站或网址
ICCV 2023 Oral | 超越SAM!EntitySeg:更少的数据,更高的分割质量
稠密图像分割问题一直在计算机视觉领域中备受关注。大模型RLHF算法更新换代,DeepMind提出自训练离线强化学习框架ReST
大模型(LLMs)爆火的背后,离不开多种不同基础算法技术的支撑,例如基础语言架构Transformer、自回归语言建模、提示学习和指示学习等等。ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型
本文提出了一个可控人物图像生成方法HumanSD,旨在高效、准确、原生地控制以人为中心的图片的生成。把"跟踪一切"搬到无人机上!MIT联合哈佛大学提出开放环境下的实时跟踪模型FAn
本文介绍一篇MIT和哈佛大学合作完成的研究论文,提出了一种实时检测、跟踪和跟随任何物体的机器人系统,被称为“follow everything”(FAn)。ICCV 2023 | SuS-X:仅靠类别名称微调CLIP模型,剑桥大学联合DeepMind出品
在本文中作者提出了一种名为SuS-X的微调方法,SuS-X可以实现一种“仅靠名称迁移的效果,即在微调过程中,模型对下游任务所掌握的唯一知识就是下游目标类别的名称CVPR 2023 | 神经地图先验,辅助无图自动驾驶 - Neural Map Prior
我们提出的神经先验网络,既可以解决传统离线高精度地图更新缓慢,制作成本高的问题,又克服了在线生成地图受限于传感器的局限性。ICCV 2023 | 沉浸式体验3D室内设计装修,基于三维布局可控生成最新技术
本文提出了一种拥有三维感知能力的对象布局生成器,其可以学习360全景照片中的对象隐藏向量,以便实现场景中各种布局的控制。ICCV 2023 | 挖掘,学习再推理:跨模态的HOI语义相关性探索
在本文中,我们提出了一个系统的框架RmLR,通过结合结构化文本知识增强HOI检测。ACL 2023 | 面向信息检索的结构感知语言模型训练方法
本文中, 针对结构数据检索,我们提出了面向结构感知的稠密向量检索方法SANTA。ICCV 2023 | MoCoDAD:一种基于人体骨架的运动条件扩散模型,实现高效视频异常检测
本文介绍一篇发表在ICCV 2023上的工作,提出了一种全新的视频异常检测方法,称为运动条件引导的扩散模型MoCoDAD。ICCV 2023 | DiffRate:首个可微分Token压缩,性能SOTA
本文提出了一个统一的token剪枝与token合并流程,并提出可微压缩率以根据计算量约束自适应决定网络每一层的token剪枝和token合并压缩率。ICCV 2023 | RiFT:通过鲁棒关键微调提升对抗训练的泛化性
本文提出了鲁棒关键微调,通过微调对抗训练模型的非鲁棒关键性模块,充分利用其冗余能力提升泛化性。ICLR 2023 Spotlight | 利用主动学习(AL)降低3D目标检测中的高标注成本
我们提出了一种用于3D目标检测的分层主动学习方案,该方案可根据提出三个选择标准逐步筛选出少部分的点云用以人工标注。ICCV 2023 | 图像重缩放新方法:无需对模型重新训练即可提高性能
本文提出了一种层次化的协同降尺度(HCD)的图像重缩放方法。首先,该方法为降尺度模型的输入HR图像生成协同样本,以便将其下采样后生成更好的LR初始化图像。ICCV 2023 | 利用双重聚合的Transformer进行图像超分辨率
本文提出一种同时利用图像空间和通道特征的 Transformer 模型,用于图像超分辨任务。ICCV 2023 Oral | UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法
面对三千多种物体在任意位姿下的泛化视觉强化学习困难,我们提出了基于几何的课程学习,对视觉空间进行划分,并进行多轮交替的专家策略学习和向通用策略的蒸馏LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果
本文是一篇专注于减轻大型Transformer语言模型训练代价的工作。ACL 2023 | LLM难以理解时间变迁?达摩院联合NUS提出时间推理数据集以及时间强化的训练范式
作者发现了 LLM 在时间理解上存在严重的偏差,于是提出了一个全面的时间问答的评测数据集 TempReason,该数据集包含三个层级的时间推理和广泛的时间跨度。ICCV 2023 Oral | 从无约束图像集合中生成新视角的交叉光线神经辐射场
文章旨在通过从不受限制的图像集合(例如从互联网中爬取的图像)中合成新视角图片,提供 3D 沉浸式体验。ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域三维目标检测
我们通过生成可靠、多样且类别平衡的伪3D物体,实现了单模型多类别同时自训练,从而将检测器自适应到目标域的三维场景中。