
OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架
OmniCam是先进的多模态框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。OmniCam结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容。通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。多模态输入支
OmniCam是先进的多模态框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。OmniCam结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容。通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。多模态输入支
OlympicArena是上海交通大学、上海AILab、苏州大学和上海交通大学生成式人工智能实验室(GAIRLab)联合推出的多学科认知推理基准测试框架。OlympicArena包含11,163道来自国际奥林匹克竞赛的双语题目,涵盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。
OLMo232B是AllenInstituteforAI(Ai2)推出的最新开源语言模型,是OLMo2系列的重要成果。拥有320亿参数,是首个在多技能学术基准测试中超越GPT-3.5-Turbo和GPT-4o-mini的完全开放模型,性能接近Qwen-2.5-72B等更大规模模型。模型采用高效的训练策略,通过预训练、中训练和后训练阶段,基于OLMo-Mix-1124数据集(3
AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智
OKKI是小满科技推出的外贸智能工作台,基于AI技术帮助外贸企业提升获客效率和业务增长。OKKI集成CRM(客户关系管理)、独立站建站、智能营销等功能模块,帮助企业高效管理客户信息、优化订单流程、分析商机,基于AI驱动的客户洞
ObjectMover是香港大学和AdobeResearch联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型的跨帧一致性学习能力,通过微调模型将其迁移到图像编辑任务。模型采用序列到序列建模,输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像。物体移动:可将图像中的物体
o1-pro是OpenAI正式推出的系列的升级版本,o1-pro是目前OpenAI最强大的推理模型,核心优势在于显著提升的计算能力,能更好地应对复杂问题,提供更一致且高质量的响应。o1-pro仅向特定开发者(Tier1–5)开放。支持视觉、函数调用、结构化输出,与响应和BatchAPI兼容。在编程和数学领域的表现仅比普通o1略胜一筹,可
NovaSonic是亚马逊推出的新型生成式AI语音模型。将语音理解与生成能力整合到一个模型中,能根据说话者的语调、风格等声学上下文调整生成的语音响应,对话更自然。NovaSonic支持多语言,目前对美国英语和英国英语的语音理解表现出色,支持多种说话风格和不同口音。平均单词错误率低至4.2%,在多语言LibriSpeech基准测试中表现优于OpenAI的GPT-4o-transcribe
Noodl是低代码到无代码的,帮助开发人员和设计人员快速构建基于Web技术的应用程序。通过可视化的编程界面,让用户可以通过拖拽组件和连接节点的方式构建应用,降低了代码编写的工作量,没有编程经验的用户能轻松上手。Noo
AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智能,用好人工智能,高效工作,快乐生活。