Mini-Omni
开源多模态大型语言模型,支持实时语音输入和流式音频输出。
Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术,实现了在说话时同时监听的能力,增强了实时交互性,尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成,以及流式自监督学习(SSL)编码器进行实时音频输入,通过三种融合策略(早期融合、中期融合和晚期融合)探索最佳交互平衡。
本站趣搜呀提供的LSLM都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由趣搜呀实际控制,在2025年1月25日 14:30收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,趣搜呀不承担任何责任。