2024年度CCF-腾讯犀牛鸟基金入选学者
在最近发布的2024腾讯犀牛鸟专项/专题研究计划中,复旦大学的范佳媛副研究员所申请的“基于 LLM 的通用 3D场景(布局)生成研究”项目成功入选。
今年的腾讯犀牛鸟专项和专题研究计划于5月发布,共收到来自118所高校的360余份申请。项目组邀请了四十余位产学领域的专家担任评委,经过深入细致的函评与会评,从科研能力、研究价值、学术创新性以及方案可实施性等多方面进行了综合评价。最终32位学者脱颖而出,成功入选。
此次最终项目的入选率仅约为8.9%。入选的学者均为相关领域的顶尖专家,包括来自清华大学、北京大学,复旦大学和香港大学等知名院校的研究人员。
数据来源:腾讯高校合作
简介
2024年度CCF-腾讯犀牛鸟基金设立大模型及其应用研究、生成式人工智能技术研究、计算机视觉与机器学习、安全与量子计算、数据库5个技术领域共33项研究课题。
来源:腾讯高校合作
范佳媛研究员此次入选的项目属于生成式人工智能技术研究技术领域 基于LLM的通用3D场景(布局)生成研究课题,旨在应用生成式人工智能技术,特别是基于大语言模型(LLM)的方法,来研究和开发通用的3D场景布局生成系统。
课题概述
大语言模型展现出了强大的智能交互和逻辑推理能力,如何利用大语言模型提升真实场景下的生产效率和效果成为一个非常有价值的课题。在很多工业设计、游戏设计中,复杂3D场景的制作往往耗时耗力。然而,现有的大语言模型在空间信息处理、数学能力、3D感知、推理速度等方面尚不能满足实际需求。本课题旨在训练一个垂直领域的多模态大语言模型,使其可以感知3D场景,通过自然语言理解人类意图,满足不同用户指令,生成(摆放)对齐人类常识和审美的复杂3D场景。
研究方向
1)多模态LLM的三维空间推理能力增强:优化大模型的空间能力,包括场景与物体的包含关系,物体之间的相对位置关系,识别物理对象的数量、距离或大小差异等;
2) 3D场景理解与生成(摆放):从3D数据、2D图像/视频、其他数据中提取和理解3D场景的信息,如提取深度信息、识别和定位物体,理解物体的形状和姿态,以及理解场景的几何和拓扑结构等,结合传统CV方法与LLM等,完成符合多种要求的布局生成。
项目目标
本项目通过构建多模态大语言模型,使其能够感知3D场景,理解人类指令,生成与人类审美对齐的复杂3D场景。项目需要完成下面三个目标:
多模态感知:通过整合多种3D表征方式(如点云、多视图等),使多模态大语言模型能够感知和理解3D场景。提升模型对物体形状、结构和空间关系的理解能力。
自然语言理解:模型将学习理解人类指令和描述,对于用户提供的自然语言输入,模型能够准确地抽取关键信息,并将其与3D场景的感知相结合。
复杂3D场景生成:模型将通过结合文本、图像和3D方法,生成与人类审美对齐的复杂3D场景。这包括根据用户指令生成场景的布局设计,生成符合用户需求的3D物体,并保持场景的一致性和合理性。
范佳媛简介
本项目负责人范佳媛博士现任复旦大学工程与应用技术研究院副研究员,2019年入选上海市浦江人才计划 ,2020年入选上海高层次人才计划。主要研究领域为多模态视觉分析和生成理论研究,目前已在IEEE T-PAMI/CVPR/ICCV/NeurIPS 等国际期刊和会议上发表学术论文70余篇,含2篇ESI高被引用论文。先后主持国家自然科学青年基金、上海市“三元群智”市级重大专项子课题、上海市浦江人才计划项目,参加国家自然科学重点基金、科技创新2030“新一代人工智能”重大专项等课题11项,累计承担经费200余万元。