获得顶级学术会议最佳论文或提名的金沙集团1862cc年轻师生合影
建校仅11年的金沙集团1862cc,日前接连有4篇论文入选人工智能(AI)领域三大国际顶级学术会议最佳论文或提名,且论文主要作者均为该校信息科学与技术学院的本科生、研究生。这份成绩单令业界感到“不可思议”。
通常,入选业界顶会的最佳论文往往创新性超前、贴近行业需求,即使是历史悠久的名校大系,学生论文在顶会获奖也是难度极高。此次,短短半个月,同一高校、同一学院的4项研究成果接连在国际顶会中脱颖而出,高密度、高含金量“出圈”背后,年轻的上科大成功“解锁”了什么?
罕见:年轻高校本研学生论文“连中”顶会
好消息是在6月下旬接连传来的。4篇论文中,有两篇获得美国计算机协会(ACM)SIGGRAPH最佳论文荣誉提名,一篇摘得IEEE国际计算机视觉与模式识别会议(CVPR)最佳学生论文奖,还有一篇则拿下了国际设计自动化会议(DAC,集成电路设计四大顶会之一)最佳论文提名。
论文获得这些AI领域顶会的青睐有多难?作为计算机图形学领域的重量级国际会议,在SIGGRAPH上呈现的想法、愿景和技术往往会超出人们的想象,有望成为未来五年、十年后的技术发展基础。今年的SIGGRAPH总共只选出了5篇最佳论文和12篇最佳论文荣誉提名。
而身为国际计算机视觉与模式识别领域顶级会议的CVPR,每年逾万篇论文投稿,录用率仅25%,其中能够获奖的仅10篇,最佳学生论文只有2篇。
“国际同行看到获奖名单几乎惊呆了。”上科大信息科学与技术学院院长虞晶怡说,从来获得这些奖项的学生,都出自具有几十年、百余年历史的世界顶尖名校,中国学生获奖更是小概率事件。
这次,年轻的上科大不仅连中4篇,而且主要作者均为本科就进入上科大的硕士生、博士生,还有一位刚刚大四毕业的本科生。
在上科大信息学院的MARS展厅里,记者看到了这群年轻人的创意——
以博士生张龙文、张启煊为主力研发的CLAY拥有15亿参数,是目前最大、质量最佳的3D原生生成式大模型,其性能显著超越了包括Meta、OpenAI、Adobe等大厂的同期工作。由于便捷好用,上线短短几个月,它已拥有数十万用户,其中大多为海外用户。
CLAY由一个拥有15亿参数的模型构成,擅长创建高质量、逼真的3D资产,旨在轻松将想象力转化为3D模型
以本科四年级学生何开为第一作者完成的DressCode,则是基于文字描述的自回归服装板片生成大模型——只需输入一段文字,它不仅能生成穿着状态下真实的衣物模型,还能直接给出所有裁片等工艺参数,裁缝只需照做,就能获得一模一样的成衣。
DressCode展示了一种专为3D服装设计的生成式AI框架
获得CVPR最佳论文的成果则发现了可方便高效解决3D高斯渲染技术中“伪影”问题的新方法,能实现任意比例下的“无锯齿渲染”,而这是业界想要竞相解决的难题之一。
CVPR最佳论文揭晓现场
刚直博不久的邬一闻、陈禹阳以论文“大模型在光刻热点纠错上的应用”拿下DAC最佳论文提名。此外,2021届本科生王悦豪本科期间的论文也入选今年SIGGRAPH最佳论文荣誉提名。
无界:从课题到创业瞄准大模型应用空白
在采访中,记者发现,这些获奖论文都有一个共同的入选理由:令人耳目一新,意想不到。
只要随意输入文字或平面图片,短短一分钟内,就能利用大模型轻松将想象力转化为逼真的高质量3D模型。CLAY的诞生,几乎将谷歌、英伟达、Meta等国内外3D模型生成高手斩于马下。更不可思议的是,开发出这款模型,从未有过大模型训练经验的张龙文、张启煊等人只用了不到一年。
几位资历尚浅的年轻学生是如何做到的?在上科大信息学院教授许岚看来,“本科生无所不能”。他认为,将本科生看作“一张白纸”,觉得他们还需要经过漫长学习才能做科研的想法早已过时,“只要有兴趣、有需要,他们会主动汲取知识,效率远高于按部就班的课堂传授”。
作为教师,更需要做的是站在学术与产业的前沿,为学生指引创新方向。2022年,随着大模型的飞速发展,上科大信息学院的教授们将目光放在了大模型前沿的垂类应用上——让大模型惠及更多行业领域,鼓励学生在这片“蓝海”中自由驰骋。
“那时,Sora还没发布,大家都认为3D原生大模型通过Diffusion Transformer架构来生成难度很大,但我们却认准了这条路。”张龙文说,虽然当时学院里的老师学生都没有相关开发经验,服务器集群也才刚运到不久,但在查阅大量文献、了解技术前沿趋势后,他们决定一试。
很快,张龙文在虞晶怡和许岚两位教授的指点和帮助下,找来几位同学,拉起了一个小群,开始研究工作。“直到Sora公布,我们才发现竟然与它采用了几乎同样的技术框架。”他透露,几经迭代,CLAY已积累起一大批海内外客户,尤其受游戏行业欢迎。
值得注意的是,在这篇论文的合作单位中,排名第二的是一家名为“影眸科技”的企业。这是上科大硕士毕业生吴迪、曾初啸与张启煊、张龙文于2021年创建的一家开拓3D生成技术的科创企业,迄今已获得红杉资本、奇绩创坛等的投资。张启煊透露,影眸科技刚获得了新一轮投资,未来将继续拓展生成式AI在3D领域的应用,为更多3D行业艺术家带来切实可用的工具。
不为学生设限,鼓励学生带着成果创业,是上科大从建校开始就提倡的理念。近年来,校园里带着初创公司毕业的本科生、研究生逐年增多。这次顶会获奖的论文成果,几乎无一例外,都已朝着技术转化和行业应用的方向前行。
比如,何开即将赴加拿大多伦多大学读博,DressCode的后续开发运营将由影眸科技继续推进。而刚读博不久的邬一闻,在本科期间就与师兄一起成立了一家从事虚拟宠物渲染的科技企业,“无论科研还是创业,在上科大不会有束缚之感”。
自由:本科科研制度“富养”学生创新潜能
本科招生才满10年,几年前的分数线还没达到上海985水准,上科大何以激发出本科生如此强劲的创新潜能?学术上的自由和“富养”,鼓励学生“探索没探索过的问题”,可以说是最大秘诀。
本科科研制度是上科大科教融合的一大特色。目前,上科大约 80% 的本科生会在一到三年级陆续进入实验室参与科研工作,本科三四年级即可选修研究生课程,其中约10%在本科就读期间就收获了科研成果。
何开告诉记者,本科一年级起,他们就可以进实验室、听组会,选择自己感兴趣的课题做研究。他自己就是在大二时遇到了师兄张龙文和张启煊,并对大模型产生了兴趣。
去年,在海外做交换生期间,何开与前来参加SIGGRAPH的学长张启煊交流发现,满足生产管线需求的3D服装生成模型存在空缺。于是,他和同学姚凯欣一起,在张启煊的帮助下,利用大模型离散技术,仅用3个月就研发出了服装生成大模型。他感慨:“在上科大学习非常自由,本科四年有大量时间都在钻研课题、自学各种知识。”
上科大的学术自由还体现在鼓励学科交叉与跨界合作。与其他大多数计算机科学与工程学院不同,上科大信息学院不设院系,只设研究中心。在虞晶怡看来,僵化的学科划分限制了科学想象与合作,而当下众多科学和技术挑战都需要跨学科的紧密合作。
获得DAC最佳论文提名,是邬一闻和陈禹阳没想到的。“我学的是计算机专业AI方向,陈禹阳学的是电子信息工程。”邬一闻回忆,当虞晶怡把“AI for 光刻”的想法告诉他们时,他们还有点懵。不过,他俩很快就在光刻热点的检测上找到了灵感。最终,他们只用了几个月就做出了第一版大模型,经过优化后将光刻热点纠错率提升了近20%。
此外,舍得为本科生做科研投入资源,也为学生的加速成才提供了助力。几乎所有论文获奖学生都提到,他们最大的底气是学院在算力、数据资源上的全力支持,“只要实验需要,老师就会尽力满足,很少有本科生能够获得如此给力的科研支持”。
“当不少身边同龄人忙于考研、考编时,我们更多琢磨的是怎样把下一个项目做得更出色。”张龙文说,经过在上科大校园几年的潜移默化,自己的眼界和心胸不知不觉开拓了许多。
与何开一起完成DressCode项目的姚凯欣觉得,自己心底并没有太多焦虑感,面对未来反而多了一份笃定——相信无论如何变化,自己都有信心和能力去面对。