Audio to Photoreal Embodiment是一个生成全身照片级人形化身的框架。它根据对话动态生成面部、身体和手部的多种姿势动作。其方法的关键在于通过将向量量化的样本多样性与扩散所获得的高频细节相结合,生成更具动态和表现力的动作。通过高度逼真的人形化身可视化生成的动作,能够表达出姿势中的重要细微差别(例如嘲笑和傲慢)。为了促进这一研究方向,我们引入了一种首次亮相的多视图对话数据集,可以进行照片级重建。实验证明,我们的模型生成了合适且多样化的动作,表现优于扩散和仅向量量化的方法。此外,我们的感知评估突出了在准确评估对话姿势中的微妙动作细节方面,照片级真实感(与网格)的重要性。代码和数据集可在线获取。
数据评估
关于Audio to Photoreal Embodiment特别声明
本站趣搜呀提供的Audio to Photoreal Embodiment都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由趣搜呀实际控制,在2025年1月25日 03:30收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,趣搜呀不承担任何责任。
相关导航
AI图像转文本描述工具
InternVL2_5-2B
多模态大型语言模型,支持图像与文本的深度交互
Face Sticker AI
使用AI将您的面部照片变成面部贴纸
Qwen2vl-Flux
先进的多模态图像生成模型,结合文本提示和视觉参考生成高质量图像。
Snowpixel
用文字创建、定制、吸引,Snowpixel 让您轻松生成美丽的图片、视频、音乐等作品。
ImageKit AI
利用AI提升媒体处理和数字资产管理效率
Flux Lora Online
在线生成精美图片,释放创意潜力。
InternVL2_5-8B
多模态大型语言模型,支持图像与文本的交互理解。
暂无评论...