
Stability AI发布最新版Stable Diffusion XL 0.9(SDXL 0.9)
6月22日,StabilityAI宣布推出SDXL0.9,这是StableDiffusion文本生成图像模型中最先进的版本。继4月发布StableDiffusionXL测试版后,SDXL0.9的图像和构图细节比之前版本有了显著改进。尤其是在参数上,这次的SDXL0.9具有35亿参数基础模型和66亿参数模
6月22日,StabilityAI宣布推出SDXL0.9,这是StableDiffusion文本生成图像模型中最先进的版本。继4月发布StableDiffusionXL测试版后,SDXL0.9的图像和构图细节比之前版本有了显著改进。尤其是在参数上,这次的SDXL0.9具有35亿参数基础模型和66亿参数模
今日,AI独角兽StabilityAI推出30亿参数的聊天模型StableLMZephyr3B,可满足从简单查询到边缘设备上的复杂教学语境等各种文本生成需求。据介绍,该模型是StableLM3B-4e1t模型的扩展,灵感来自HuggingFace的Zephyr7B
1月22日消息,StabilityAI?日前发布新闻稿,公布了一款名为StableLM21.6B的AI“小模型”,这是该公司今年推出的第二款模型,号称是“自家迄今以来最为强大的小语言?AI?模型”。IT之家从新闻稿中得知,这款?AI?模型支
7月27日消息,“文生图”行业一哥StabilityAI日前宣布推出StableDiffusionXL首个正式版1.0,距离IT之家此前报道该AI工具推出0.9版本仅过了一个月,StabilityAI公司宣称,StableDiffusionXL1.0是该公司迄今为止“最先进̶
SpatialVLA是上海AILab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3D空间理解能力。SpatialVLA基于Ego3D位置编码将3D空间信息与语义特征融合,用自适应动作网格将连续动作离散化,实现跨机器人平台的泛化控制。Spa
SpatialLM是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的3D场景布局,标注出房间结构、家具摆放、通道宽度等信息。模型基于大语言模型框架,结合点云重建和结构化表示技术,将视频中的场景转化为结构化的3D模型,为具身智能训练提供了高效的基础框架。视
Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样
AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智能,
今天微软研究院发布了Sora的深度论文综述,这里和关心Sora的同学们分享本城翻译制作的中文版(全文3.4万字)英文原版传送门:中文版由Web3天空之城翻译,传送门:
SmolDocling(SmolDocling-256M-preview)是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。模型参数量仅256M,推理速度快,A100GPU上每页处理仅需0.35秒,