
BGE-VL – 智源研究院联合多所高校开源的多模态向量模型
BGE-VL是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据MegaPairs训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检索,基于高效的多模态数据合成方法提升模型的泛化能力和检索性能。BGE-VL系列包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,基于多模态大模型架构的BGE-VL-MLLM。模型在多
BGE-VL是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据MegaPairs训练而成。BGE-VL专注于多模态检索任务,如图文检索和组合图像检索,基于高效的多模态数据合成方法提升模型的泛化能力和检索性能。BGE-VL系列包括基于CLIP架构的BGE-VL-Base和BGE-VL-Large,基于多模态大模型架构的BGE-VL-MLLM。模型在多
BEHAVIORRobotSuite(BRS)是斯坦福大学李飞飞团队推出的用在学习全身操作完成日常家务任务的框架。基于分析家务活动,确定机器人需要具备的关键能力,包括双臂协调、稳定导航和广泛的末端执行器可达性。BRS的核心创新包括:JoyLo,一种低成本
AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智能,用好人工智能,高效工作,快乐生活。
AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智能,用
AyaVision是Cohere推出的多模态、多语言的视觉模型,提升全球范围内的多语言和多模态通信能力。支持23种语言,能执行图像描述生成、视觉问答、文本翻译和多语言摘要生成等任务。AyaVision有两个版本:AyaVision32B和AyaVision8B,分别在性能和计算效率上各有优势。模型通过合成标注和多语言数据增强技术进行训练,能在资源有限的情况下实现高效表现。图像描述生成:
AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智能,用好人工智能,高效工作,快乐生活。
Avat3r是慕尼黑工业大学和MetaRealityLabs推出的高保真三维头部头像的大型可动画高斯重建模型,仅需几张输入图像,能生成高质量且可动画化的3D头部头像,降低了计算需求。模型通过大型多角度视频数据集学习强大的三维人头先验,结合DUSt3R的位置图和Sapiens的特征图,优化重建效果。Avat3r的关键创新在于通过简
AutoRAG是Cloudflare推出的全托管的检索增强生成(RAG)管道,帮助开发者轻松将上下文感知的AI集成到应用程序中,无需管理基础设施。CloudflareAutoRAG基于自动索引数据源、持续更新内容,结合Cloudflare的WorkersAI、Vectorize等技术,实现高效的数据检索和高质
autoMate是基于AI和RPA的本地自动化工具,用自然语言实现复杂任务的自动化操作。autoMate基于大型语言模型,用户无需编程知识,用自然语言描述任务,能完成计算机界面操作、复杂工作流执行及智能决策。autoMate支持本地部署,确保数据安全和隐私,兼
AutoGLM沉思是智谱推出的首个免费、具备深度研究和操作能力的AIAgent,能模拟人类思维过程,处理复杂的开放式问题。AutoGLM沉思具备强大的推理能力和自主操作能力,支持进行多步骤的深度思考,像人类一样自主浏览和操作网页,完成从数据检索、分析到生成报告。AutoGLM沉思基于智谱自研的推理模