欢迎光临
我们一直在努力

热门新闻 第48页

Stability AI发布最新版Stable Diffusion XL 0.9(SDXL 0.9)

6月22日,StabilityAI宣布推出SDXL0.9,这是StableDiffusion文本生成图像模型中最先进的版本。继4月发布StableDiffusionXL测试版后,SDXL0.9的图像和构图细节比之前版本有了显著改进。尤其是在参数上,这次的SDXL0.9具有35亿参数基础模型和66亿参数模

赞(0)划界划界阅读()

Stability AI发布30亿参数轻量模型

今日,AI独角兽StabilityAI推出30亿参数的聊天模型StableLMZephyr3B,可满足从简单查询到边缘设备上的复杂教学语境等各种文本生成需求。据介绍,该模型是StableLM3B-4e1t模型的扩展,灵感来自HuggingFace的Zephyr7B

赞(0)划界划界阅读()

Stability AI 宣布推出首个正式版 Stable Diffusion XL 1.0

7月27日消息,“文生图”行业一哥StabilityAI日前宣布推出StableDiffusionXL首个正式版1.0,距离IT之家此前报道该AI工具推出0.9版本仅过了一个月,StabilityAI公司宣称,StableDiffusionXL1.0是该公司迄今为止“最先进̶

赞(0)划界划界阅读()

SpatialVLA – 上海 AI Lab 联合上科大等推出的空间具身通用操作模型

SpatialVLA是上海AILab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,为机器人赋予通用的3D空间理解能力。SpatialVLA基于Ego3D位置编码将3D空间信息与语义特征融合,用自适应动作网格将连续动作离散化,实现跨机器人平台的泛化控制。Spa

赞(0)划界划界阅读()

SpatialLM – 群核科技开源的空间理解多模态模型

SpatialLM是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的3D场景布局,标注出房间结构、家具摆放、通道宽度等信息。模型基于大语言模型框架,结合点云重建和结构化表示技术,将视频中的场景转化为结构化的3D模型,为具身智能训练提供了高效的基础框架。视

赞(0)划界划界阅读()

Spark-TTS – AI文本转语音工具,支持中英零样本语音克隆

Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样

赞(0)划界划界阅读()

Soundwave – 港中文深圳开源的语音理解大模型

AI老司机(ailsj.cn)精选国内外999+优质AI工具、资源和资讯,包括AI绘画工具、AI写作工具、AI聊天工具、AI音视频工具、AI办公工具、AI游戏制作工具、AI营销工具等AI工具大全。我们希望通过努力,让更多个人和企业,了解人工智能,

赞(0)划界划界阅读()

SmolDocling – 轻量级的多模态文档处理模型

SmolDocling(SmolDocling-256M-preview)是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。模型参数量仅256M,推理速度快,A100GPU上每页处理仅需0.35秒,

赞(0)划界划界阅读()

登录

找回密码

注册