欢迎光临
我们一直在努力

热门新闻 第43页

UniFluid – 谷歌联合麻省理工推出的多模态图像生成与理解框架

UniFluid是谷歌DeepMind和麻省理工学院联合推出的,统一的自回归框架,用在联合视觉生成和理解任务。基于连续视觉标记处理多模态图像和文本输入,生成离散文本标记和连续图像标记。框架基于预训练的模型,用配对的图像-文本数据训练,让生成和理解任务相

赞(0)划界划界阅读()

UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架

UniAct是新型的具身基础模型框架,解决不同机器人之间行为异构性的问题。通过学习通用行为,捕捉不同机器人共享的原子行为特征,消除因物理形态和控制接口差异导致的行为异构性。UniAct的架构包括通用行为提取器、通用行为空间和异构解码器。通用行为提取器基于视觉语言模型,通过观察和任务目标提取通用行为;通用行为空间以向

赞(0)划界划界阅读()

Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析

Umi-OCR是免费开源的离线OCR文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF扫描件的文字识别,能识别数学公式、二维码,可生成双层可搜索PDF。内置多语言识别库,界面支持多语言切换,提供命令行和HTTP接口调用功能。插件化设计可扩展更多功能,如导入不同语言识别库等。截图OCR:能快速识别截图中的文字,支持排版解析,按照正确的顺序输出文字内容。批量图片OCR:支持批

赞(0)划界划界阅读()

TxGemma – 谷歌推出的通用医学治疗大模型

TxGemma是谷歌推出的用于药物发现的通用人工智能模型,通过AI技术加速药物研发进程。基于Google的Gemma框架开发,能理解常规文本以及化学物质、分子和蛋白质等治疗实体的结构。研究人员可以通过TxGemma预测潜在新疗法的关键特性,如安全性、有效性和生物利用度。TxGemma具备对话能力,能解释预测依据,帮助研究人员解决复杂问题。模型提供20亿、90亿和270亿参数三种版

赞(0)划界划界阅读()

TurboLearn – AI学习工具,将录音和PDF文件转为学习笔记

Turbolearn是AI学习工具,基于AI技术将录音和PDF文件转化为高效的学习资料,如笔记、闪卡、测验和播客。Turbolearn支持笔记中插入表格、表情符号、图表和公式,提供聊天功能,帮助用户提取笔记中的关键信息。Turbolearn的笔记支持在应用和官网同步,方便用户随时随地查看和编辑。TurboLear

赞(0)划界划界阅读()

TripoSR – Stability AI 联合 VAST 开源的 3D 重建模型

TripoSR是StabilityAI和VAST联合推出的开源,能在不到0.5秒内从单张2D图像快速生成高质量的3D模型。模型基于Transformer架构,采用了大型重建模型(LRM)的原理,对数据处理、模型设计和训练技术进行了多项改进。TripoSR在多个公共数据集上的表现优于其他开源替代方案,TripoSR支持在没有GPU的设备上运行,极大地降低了使用门槛。采用MIT许可证,支持商业、个

赞(0)划界划界阅读()

TripoSF – VAST AI 推出的新一代 3D 基础模型

TripoSF是VAST推出的新一代3D基础模型,突破传统在细节、复杂结构和扩展性上的瓶颈。采用SparseFlex表示方法,结合稀疏体素结构,仅在物体表面附近的区域存储和计算体素信息,大幅降低内存占用,支持高分辨率训练和推理。TripoSF引入“视锥体感知的分区体素训练”策略,进一步降低训练开销。实

赞(0)划界划界阅读()

Translate Image – 免费 AI 图片翻译工具,支持上下文感知翻译

TranslateImage是免费的在线AI图片翻译工具,专为需要快速翻译图片中文字的用户设计。支持多种图片格式(如JPG、PNG、JPEG等),可处理产品图片、电商列表、营销材料、广告、截图、扫描文档等多种类型。工具翻译准确率超95%,支持上下文感知翻译,能保持原文意思和语气,支持技术性及行业特定术语。图片多语言翻译:支持将图片中的文字翻译成多种语言,满足不同用户的需求。上下文感知翻译

赞(0)划界划界阅读()

登录

找回密码

注册