AI项目和框架

共 82 篇文章

SpeciesNet

SpeciesNet是Google开源的一款人工智能模型，旨在分析相机陷阱拍摄的图像来识别动物物种。该模型基于超过6500万张图像进行训练，能够识别超过2000种标签，涵盖各种动物物种、分类单元以及非动物对象。SpeciesNet由MegaDetector和SpeciesNet分类器两个主要组件构成...

AI工具箱8个月前

SpeciesNet

SuperGPQA

SuperGPQA是由字节跳动豆包大模型团队与M-A-P联合推出的一个全面的知识推理基准测试集。该测试集涵盖了285个研究生级学科，包含26529道专业题目。项目旨在解决传统评测基准在学科覆盖不足、题目质量参差不齐及评测维度单一等问题。通过专家与大语言模型的协同构建，SuperGPQA保证了题目高质...

AI工具箱8个月前

SuperGPQA

Asyncflow v1.0：打造高效异步流程管理

Asyncflow v1.0是一款由播客平台Podcastle推出的AI文本转语音模型。这一模型支持超过450种语音选项，能够为各种文本内容生成高质量的语音朗读，并适用于多种语言和风格。通过优化技术，Asyncflow v1.0降低了语音克隆的训练成本，实现仅需几秒钟的录音即可完成。同时，该模型整合...

AI工具箱8个月前

Asyncflow v1.0：打造高效异步流程管理

GaussianCity

南洋理工大学 S-Lab 团队开发的 GaussianCity 是一款高效且无边界的3D城市生成框架，采用了先进的3D高斯绘制（3D-GS）技术。该框架通过紧凑的 BEV-Point 表示方法，有效地控制显存使用量，解决了传统方法在生成大规模场景时的显存和存储需求瓶颈。GaussianCity 还引...

AI工具箱8个月前

GaussianCity

NotaGen

NotaGen – 音乐学院联合北航、清华等推出的音乐生成模型 NotaGen是音乐学院、北京航空航天大学和清华大学等机构合作开发的音乐生成模型。这一模型受到大型语言模型（LLM）训练方法的启发，旨在创作高质量的古典乐谱。NotaGen采用了预训练、微调和强化学习的结合方式，其预训练阶段吸收了超过1...

AI工具箱8个月前

NotaGen

NextGenAI

NextGenAI为OpenAI发起的全球性合作项目，联合了15所著名高等学府和研究机构，旨在利用人工智能技术推动教育与研究的进展。这一联盟得到OpenAI提供的5000万美元资金支持、计算资源和API接口。各成员机构在医疗、教育和图书馆等领域展开多项创新应用，例如加速罕见疾病的诊断和数字化稀有文献...

AI工具箱8个月前

NextGenAI

OmniAlign-V

OmniAlign-V是由上海交通大学、上海AI Lab、学、复旦大学和浙江大合合作推出的高质量多模态数据集，旨在增强多模态大语言模型（MLLMs）与人类偏好之间的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，并结合开放式、知识丰富的问题与答案。 OmniAlign-V的主...

AI工具箱8个月前

OmniAlign-V

DiffRhythm

DiffRhythm是由西北工业大学与香港中文大学（深圙）联合研发的一款先进的端到端音乐生成工具。它基于潜扩散模型技术，可快速生成包含人声和伴奏的完整音乐作品。用户只需输入歌词和风格提示，DiffRhythm就能在短短10秒内创作出最长达4分45秒的高质量音乐，显著提高了音乐创作效率，解决了传统生成...

AI工具箱8个月前

DiffRhythm

Proxy Lite

Proxy Lite 是一款开源的轻量级视觉语言模型（VLM），其参数数量为 3B，专注于自动化网页操作。该模型能够像人类一样执行浏览器操作，包括网页交互、数据抓取和表单填写等重复性任务，从而显著降低自动化成本。它采用了“观察-思考-工具调用”三步决策机制，具备卓越的泛化能力，资源占用低，可高效运行...

AI工具箱8个月前

Proxy Lite

TrendPublish

TrendPublish是一个基于人工智能的趋势发现及内容发布平台。它通过多渠道数据采集，从Twitter/X、各类网站等来源获取信息，并利用DeepseekAI、千问等先进 AI 服务进行智能化总结、提取关键信息和生成吸引人的标题。这一系统支持将内容自动发布到微信公众号，同时提供自定义模板和定时发...

AI工具箱8个月前

TrendPublish

WeGen

WeGen是由中国科学技术大合作上海交通大学、微信团队及中国科学院等多家机构共同研发的一个综合性多模态生成模型。该模型结合了多模态大语言模型（MLLM）与扩散模型，旨在通过自然对话实现丰富的视觉生成任务。用户可以通过WeGen进行文本到图像生成、条件生成、图像编辑、风格迁移等多种类型任务，并获得多样...

AI工具箱8个月前

WeGen

DiffBrush

DiffBrush是由北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学联合开发的一款图像生成与编辑框架。该框架不仅无需复杂的训练，还能通过简单的手绘草图直观地控制图像生成过程。DiffBrush利用了预训练的文本到图像（T2I）模型，结合颜色引导、实例与语义引导、潜在空间再生等先进技术，...

AI工具箱8个月前

DiffBrush

X-Dancer

字节跳动与加州大学圣地亚哥分校和南加州大学的研究团队联合开发了一项创新性的音乐驱动人像舞蹈视频生成框架，名为X-Dancer。这一框架利用了自回归变换器和扩散模型，基于2D人体姿态建模，能够从单张静态图像生成多样化且逼真的全身舞蹈视频，实现舞蹈动作与音乐节奏的精准对齐。 X-Dancer是一种先进的...

AI工具箱8个月前

X-Dancer

Liquid

Liquid是一款由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架。该框架利用VQGAN技术将图像转换为离散的视觉token，并与文本token共享同一词汇空间，从而使得大型语言模型（LLM）在视觉生成和理解任务中发挥作用，而无需对模型结构进行修改。 Liquid的主要功能包括视觉生成、视...

AI工具箱8个月前

Liquid

高效编辑文案：AVD2独家揭秘，新鲜资讯抢先知！

AVD2 是一个由清华大学与香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等多所机构共同开发的自动驾驶事故视频理解与生成框架。该框架旨在提高自动驾驶事故视频的理解能力，通过生成与详细自然语言描述相对齐的视频来增强对复杂事故场景的解析效果。AVD2整合了视频生成与事故分析技术，能够生成具...

AI工具箱8个月前

高效编辑文案：AVD2独家揭秘，新鲜资讯抢先知！

Kiss3DGen

Kiss3DGen是一种基于图像扩散模型的3D资产生成框架，旨在利用预训练的2D图像扩散模型，快速生成、编辑和提升3D对象的质量。其核心技术在于创建“3D Bundle Image”，即结合多视图图像和相应法线图的拼贴表示，其中法线图用于重建3D网格，多视图图像则为模型提供纹理映射。Kiss3DGe...

AI工具箱8个月前

Kiss3DGen

PodAgent

PodAgent是由香港中文大学、微软和小红书联合开发的播客生成框架。该框架模拟真实的脱口秀环境，通过多智能体协作系统自动生成结构化的对话内容。其中包括主持人、嘉宾和编剧，他们协作生成丰富对话脚本。此外，PodAgent还提供多样化的声音库，确保声音与角色匹配，引入基于大语言模型的语音合成技术，生成...

AI工具箱8个月前

PodAgent

QwQ-32B

阿里通义千问开源的最新推理模型 QwQ-32B 是一款具有320亿参数的强化学习推理模型，由阿里巴巴推出。这一模型在数学推理和编程等领域表现卓越，性能与6710亿参数的 DeepSeek-R1 满血版相当。QwQ-32B 集成了智能体功能，可根据外部环境的反馈调整推理过程，展现出良好的适应性和推理能...

AI工具箱8个月前

QwQ-32B

Chat2SVG

Chat2SVG框架是一个专注于文本描述转换为高质量矢量图形（SVG）的生成平台。它融合了大型语言模型（LLMs）与图像扩散模型的技术，能够自动生成具有语义意义的SVG图形。Chat2SVG通过多阶段的处理流程实现，首先利用LLMs将文本描述转化为含有语义的SVG模板，接着运用图像扩散模型进行细节优...

AI工具箱8个月前

Chat2SVG

TheoremExplainAgent（TEA）

TheoremExplainAgent（TEA）是由滑铁卢大学与Votee AI等机构联合开发的多模态智能代理系统。该系统旨在生成长达5分钟以上的动画教育视频，帮助用户更深入理解数学和科学定理。涵盖多个STEM领域，包括数学、物理、化学和计算机科学。为评估性能，团队推出了TheoremExplain...

AI工具箱8个月前

TheoremExplainAgent（TEA）

SpatialVLA

SpatialVLA是由上海AI Lab、中国电信人工智能研究院以及上海科技大学等机构联合开发的先进空间具身通用操作模型。通过依托百万级真实数据进行预训练，SpatialVLA赋予机器人出色的3D空间理解能力。它利用Ego3D位置编码将3D空间信息与语义特征融合，采用自适应动作网格实现连续动作的离散...

AI工具箱8个月前

SpatialVLA

Light-R1

Light-R1是360智脑推出的一个开源AI模型，专注于数学领域的长思维链推理。该模型具体版本为Light-R1-32B，建立在Qwen2.5-32B-Instruct的基础上，经过与7万条数学数据和双阶段课程学习（SFT+DPO）的训练，成功超越了DeepSeek-R1-Distill-Qwen...

AI工具箱8个月前

Light-R1

BGE-VL

BGE-VL – 智源研究院联合多所高校开源的多模态向量模型。 BGE-VL是由北京智源研究院与多所高校共同开发的一款多模态向量模型，利用大规模合成数据MegaPairs进行训练。该模型专注于多模态检索任务，能够有效处理图文检索和组合图像检索等应用。通过高效的多模态数据合成方法，BGE-VL显著提升...

AI工具箱8个月前

BGE-VL

Aya Vision

Aya Vision是由Cohere开发的新型多模态、多语言视觉模型，旨在增强全球范围内的多语言和多模态沟通能力。支持23种语言，可执行图像描述生成、视觉问答、文本翻译和多语言摘要生成等任务。Aya Vision提供Aya Vision 32B和Aya Vision 8B两个版本，各自在性能和计算效...

AI工具箱8个月前

Aya Vision

全新版本发布：Granite 3.2.0

IBM推出的Granite 3.2是一款开源的多模态AI模型系列，展现出卓越的推理、视觉理解与预测能力。Granite 3.2包含多个版本，其中Granite 3.2 Instruct具备实验性的链式推理功能，Granite Vision 3.2 2B是行业首个视觉语言模型，专注于文档解析。同时，G...

AI工具箱8个月前

全新版本发布：Granite 3.2.0

混元图视频

混元图生视频是由腾讯混元团队推出的一款开源图像生成视频模型，用户可上传一张图片并提供简要描述，即可生成时长为5秒的动态视频。该模型具备自动化口型匹配、动作驱动和背景音效生成等功能，适用于写实、动漫及CGI等不同类型的角色和场景，参数容量高达130亿。混元图生视频模型已在腾讯云上线，用户可通过混元AI...

AI工具箱8个月前

混元图视频

MiniMax

MiniMax推出的Image-01是一款文本到图像生成模型，具备卓越的图像生成技术。用户提供文本描述后，该模型能够精确转化为高质量的图像，支持多种纵横比和高分辨率输出，适用于社交媒体、商业项目等多种场景。 Image-01是MiniMax推出的先进文本到图像生成模型，具备出色的图像生成能力。该模型...

AI工具箱8个月前

MiniMax

MindLLM

MindLLM是由耶鲁大学、达特茅斯学院和剑桥大学共同研发的一种先进的人工智能模型，能够将脑部功能性磁共振成像（fMRI）信号解码为自然语言文本。通过结合主体无关的fMRI编码器和大型语言模型（LLM），以及引入脑指令调优（BIT）技术，MindLLM成功捕捉了fMRI信号中的丰富语义信息。在众多基...

AI工具箱8个月前

MindLLM

Probly

Probly 是一款创新的 AI 驱动电子表格工具，将电子表格的便捷性与 Python 数据分析的强大功能相结合。通过利用 WebAssembly 技术在浏览器中直接执行 Python 代码，Probly 支持用户进行交互式操作、数据可视化以及智能分析建议。用户可以轻松导入数据，并快速生成分析结果或...

AI工具箱8个月前

Probly

PRefLexOR

MIT团队研发的新型自学习人工智能框架PRefLexOR融合了偏好优化和强化学习概念，通过推理提升自我学习能力。其核心算法是递归推理，模型通过多轮推理、反思和优化生成更准确结果。使用基于优势比偏好优化（ORPO）和直接偏好优化（DPO）的技术，协调推理路径并提升质量。 PRefLexOR的功能包括动...

AI工具箱8个月前

PRefLexOR

Fractal Generative Models

麻省理工推出的分形生成模型（Fractal Generative Models）是一种创新的图像生成技术，由麻省理工学院计算机科学与人工智能实验室与Google DeepMind团队共同研发。该模型基于分形理论，将生成过程抽象为可重用的“原子模块”，通过递归调用这些模块，构建出具有自相似特性的分形结...

AI工具箱8个月前

Fractal Generative Models

MiniMind

MiniMind是一个开源的超小型语言模型项目，致力于帮助个人开发者以极低的成本构建自己的语言模型。该项目拥有轻量化设计，包含多种训练技术和完整的训练流程代码，适用于普通个人GPU进行训练。MiniMind支持多模态能力，与主流框架兼容，并提供高质量的数据集和自定义分词器，是LLM初学者的理想选择。...

AI工具箱8个月前

MiniMind

CogView4

CogView4是一款由智谱科技推出的开源文生图模型，拥有60亿个参数，能够支持中文输入和文字生成。在DPG-Bench基准测试中表现优异，综合评分排名第一，成为开源文生图模型领域的最新标杆。这个模型支持中英双语输入，可以生成高质量的图像，也能够生成任意分辨率的图像，范围从512×512到2048...

AI工具箱8个月前

CogView4

AgiBot Digital World

智元机器人推出了一款名为AgiBot Digital World的机器人仿真框架，旨在支持机器人操作技能的研究与应用。这一框架结合了大量真实的三维资产、多样化的专家轨迹生成机制以及全面的模型评估工具，通过高度逼真的模拟和全链路的自动化数据生成，能够快速构建多样化的机器人训练场景。 AgiBot Di...

AI工具箱8个月前

AgiBot Digital World

HumanOmni

HumanOmni是一款专注于人类中心场景的多模态大模型，由阿里通义等推出。该模型融合了视觉和听觉信息，旨在全面理解人类的行为、情感和互动。通过处理视频、音频或两者的结合输入，HumanOmni展现出卓越的情感识别、面部表情描述和语音理解能力。基于超过240万段视频和1400万条指令的预训练，Hum...

AI工具箱8个月前

HumanOmni

ARTalk

ARTalk是由东京大学与日本理化学研究所共同开发的先进语音驱动3D头部动画生成框架。该系统基于自回归模型，能实时生成高度同步的唇部动作、自然的面部表情以及头部姿势。通过结合多尺度码本和滑动时间窗口技术，ARTalk能根据音频输入生成高质量的动画序列，引入了风格编码器适应不同的说话风格。在唇部同步精...

AI工具箱8个月前

ARTalk

Spark-TTS

Spark-TTS是一款由SparkAudio团队推出的AI文本转语音工具，支持中英文零样本语音克隆。该工具基于大型语言模型（LLM）构建，能够在没有额外生成模型的情况下，直接通过LLM预测的编码重建音频，实现零样本文本到语音的转换。用户可以通过调节参数（如性别、音调、语速等）来生成符合个性化需求的...

AI工具箱8个月前

Spark-TTS

Shandu

Shandu是一款开源的人工智能研究自动化工具，融合了LangChain和LangGraph的先进技术，能够高效地进行多层次的信息挖掘与分析，从而生成结构化的研究报告。用户只需通过简单的命令行输入研究主题，并设定深度和广度参数，便能快速生成包含引用的Markdown格式报告。Shandu支持多个搜索...

AI工具箱8个月前

Shandu

ViDoRAG

ViDoRAG是由阿里巴巴通义实验室与中国科学技术大学、上海交通大学共同开发的视觉文档检索增强生成框架。该框架利用多智能体协作及动态迭代推理技术，克服了传统方法在处理复杂视觉文档时面临的检索与推理的局限性。ViDoRAG通过高斯混合模型（GMM）实现多模态混合检索策略，能够动态调整检索结果的数量，从...

AI工具箱8个月前

ViDoRAG

SepLLM

SepLLM – 分隔符压缩加速大语言模型的高效框架 SepLLM简介 SepLLM是香港大学和华为诺亚方舟实验室等机构共同研发的高效框架，旨在加速大型语言模型（LLM）的推理过程。SepLLM通过有效地压缩段落信息并消除冗余标记，显著提高了模型的推理速度和计算效率。该框架的关键创新在于利用分隔符（...

AI工具箱8个月前

SepLLM

1 2 3