欢迎光临
我们一直在努力

热门新闻 第64页

Multi-Speaker – AudioShake 推出的多说话人声分离模型

Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道,解决传统音频工具在处理重叠语音时的难题。Multi-Speaker适用于多种场景,先进神经架构支持高采样率,适合广播级音

赞(0)划界划界阅读()

Multi-Agent Orchestrator – 亚马逊开源的多智能体框架

Multi-AgentOrchestrator是用于管理和协调多个智能代理(Agent)的框架。通过分类器识别用户输入的意图,将请求分配给最适合的代理进行处理,通过对话存储保持上下文连贯性。支持多种类型的代理,如基于大语言模型(LLM)的代理和基于规则的代理,具有高度的灵活性和可扩展性。用户输入后,分类器分析并选择合适

赞(0)划界划界阅读()

MT-TransformerEngine – 摩尔线程开源的高效训练与推理优化框架

MT-TransformerEngine是摩尔线程开源的高效训练与推理优化框架,专为Transformer模型设计。框架通过算子融合、并行加速等技术,充分基于摩尔线程全功能GPU的计算潜力,显著提升训练效率。支持FP8混合精度训练,借助GPU的原生FP8计算能力,进一步优化性能和稳定性。MT-Tran

赞(0)划界划界阅读()

MT-MegatronLM – 摩尔线程开源的混合并行训练框架

MT-MegatronLM是摩尔线程推出的面向全功能GPU的开源混合并行训练框架,主要用于高效训练大规模语言模型。支持dense模型、多模态模型及MoE(混合专家)模型的训练。框架基于全功能GPU支持FP8混合精度策略、高性能算子库和集合通信库,显著提升了GPU集群的算力利用率。通过模型并行、数据并行和流水线并行等技术,

赞(0)划界划界阅读()

Move AI – AI动作捕捉工具,支持普通2D视频转为3D运动数据

MoveAI是AI动作捕捉工具,专注于无标记动作捕捉技术,基于AI技术和计算机视觉技术,将普通摄像头(如手机)拍摄的2D视频转换为高质量的3D运动数据。MoveAI无需穿戴任何特殊设备或标记,简化动作捕捉流程,具备高效、快速处理和高精度的特点。MoveAI广泛应用于娱乐(如电影、游戏、现场表演)、体育分析、虚拟现实(VR)和增强现实(AR)等领

赞(0)划界划界阅读()

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis是Kyutai推出的开源多模态语音模型,基于Moshi实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。模型在Moshi的7B基础架构上,增加了约206M的适配器参数,集成了400M的P

赞(0)划界划界阅读()

MoLing – 本地AI办公自动化助手,基于 MCP 服务器

MoLing是无依赖的本地办公自动化助手,是基于计算机和浏览器使用的MCP服务器。MoLing基于操作系统API实现系统交互,支持文件系统操作(如读写、合并、统计和聚合),执行系统命令。MoLing兼容Windows、Linux和macOS,无需安装额

赞(0)划界划界阅读()

登录

找回密码

注册