AI项目和框架

共 82 篇文章

LCVD

LCVD是四川大学推出的一款名为“光照可控视频扩散模型”(Lighting Controllable Video Diffusion Model)的肖像动画生成框架。该框架能够高保真地生成具有可控光照效果的肖像动画,通过将肖像的内在特征(如身份和外观)与外在特征(如姿态和光照)进行分离,并使用参考适...
AI工具箱8个月前
LCVD

story-flicks

"story-flicks" 是一款 AI 视频生成工具,可通过一键操作生成高清故事短视频。用户只需输入故事主题,系统将应用先进的 AI 技术,自动生成包含图像、文本、音频和字幕的短视频。该项目支持多种模型提供商,如 OpenAI 和阿里云,用户可以根据需求选择不同的文本和图像生成模型。视频时长可根...
AI工具箱8个月前
story-flicks

WhisperChain

WhisperChain 是一款AI实时语音转文字工具,旨在提高工作效率。该工具利用 Whisper.cpp 实现实时语音转文本功能,并结合 LangChain 对文本进行清理和优化,去除冗余词汇,编辑和精炼内容。此外,WhisperChain 提供全局快捷键功能,用户可随时启动语音输入,将清理后的...
AI工具箱8个月前
WhisperChain

Avat3r

Avat3r 是由慕尼黑工业大学与 Meta Reality Labs 联合开发的一款高保真三维头像重建模型,能够在仅需几张输入图像的情况下,生成高质量且具备动画效果的 3D 头部头像,显著降低了计算资源的需求。该模型通过大规模多角度视频数据集的学习,掌握了强大的三维人头先验知识,并结合 DUSt3...
AI工具箱8个月前
Avat3r

星火医疗大模型X1

星火医疗大模型X1是科大讯飞推出的深度推理大模型,专为医疗领域设计。该模型利用先进的深度推理技术,能够逐步解释循证过程,有效减少医疗幻觉问题,提升医疗推理的逻辑性和专业性。已在诊断推荐、健康咨询和检查检验报告解读等方面广泛应用,性能超越了GPT-4o和DeepSeek R1。 星火医疗大模型X1以其...
AI工具箱8个月前
星火医疗大模型X1

WarriorCoder

WarriorCoder是华南理工大学计算机科学与工程学院与微软合作推出的一款代码生成大语言模型(LLM)。其创新之处在于模拟不同专家模型之间的对抗,以生成高质量的训练数据,从而显著提升模型的性能。与传统方法不同,WarriorCoder摒弃了对现有专有模型或数据集的依赖,而是采用从零开始挖掘指令的...
AI工具箱8个月前
WarriorCoder

xAR

xAR是字节跳动与约翰·霍普金斯大学合作开发的一款自回归视觉生成框架。该框架利用“下一个X预测”和“噪声上下文学习”技术,解决了传统自回归模型在视觉生成中信息密度不足和累积误差问题。xAR具有以下主要功能: 下一个X预测:超越传统“下一个标记预测”,可预测更复杂的视觉实体,捕捉更丰富的语义信息。 噪...
AI工具箱8个月前
xAR

WorldCraft

WorldCraft是香港科技大学开发的3D虚拟世界创建和定制系统,利用大型语言模型代理技术,帮助用户构建个性化的3D虚拟环境。用户可以通过自然语言交互轻松生成复杂的室内外场景,并对场景中的物体和布局进行精细的调整。WorldCraft包含ForgeIt、ArrangeIt和轨迹控制模块,用于物体定...
AI工具箱8个月前
WorldCraft

AI-Infra-Guard

腾讯开源的AI基础设施安全评估工具AI-Infra-Guard,具有高效、轻量且易于使用的特点。该工具能够发现和检测AI系统中的潜在安全风险,支持28种主流AI框架的指纹识别,覆盖了超过200个安全漏洞数据库,可以快速扫描并识别漏洞。 AI-Infra-Guard的主要功能包括: 高效扫描:支持28...
AI工具箱8个月前
AI-Infra-Guard

Mobius

Mobius是一项由重庆邮电与美团等合作推出的无缝循环视频生成技术。这种先进技术利用人工智能算法,将文字描述转化为无限循环的视频内容。其关键在于强大的AI模型,能够自动识别视频中的关键元素,生成平滑过渡的循环片段,无需用户进行繁琐编辑。Mobius简化了视频创作过程,适合各种技能水平的创作者,并在广...
AI工具箱8个月前
Mobius

LDGen

:LDGen支持多种语言,包括但不限于英语、中文、西班牙语、法语和德语等主流语言。 LDGen的图像生成速度如何?:LDGen在生成图像时具备较快的速度,能够快速响应用户输入并生成高质量的图像。 LDGen与其他文本到图像技术相比有何优势?:LDGen通过引入多语言零样本生成、语言表示优化和跨模态精...
AI工具箱8个月前
LDGen

HippoRAG

俄亥俄州立大学推出的检索增强生成框架HippoRAG 2旨在弥补传统RAG系统在模拟人类长期记忆动态性和关联性方面的不足。其使用个性化PageRank算法实现深度段落整合和更高效的在线大型语言模型(LLM)应用,使在知识检索和生成过程中更贴近人类记忆效果。 HippoRAG 2作为一种创新型的检索增...
AI工具箱8个月前
HippoRAG

VidSketch

VidSketch是一款由浙江大学CAD&CG国家重点实验室与软件学院合作推出的创新视频生成框架。它利用用户的手绘草图和简单的文字提示,能够生成高质量的视频动画。该系统采用了"层级草图控制策略",可以动态调整草图的引导强度,以适应不同绘画技能水平的用户。此外,VidSketch还利用了"时空...
AI工具箱8个月前
VidSketch

AIMv2

苹果公司推出的AIMv2是一款开源的多模态自回归预训练视觉模型。该模型结合图像和文本信息,通过创新的预训练框架,将图像和文本信息合并为一个统一的序列进行自回归预训练,增强了模型对多模态数据的理解能力。AIMv2提供多种参数规模的版本,适应各种设备,并在多模态任务和传统视觉任务中表现优异。 AIMv2...
AI工具箱8个月前
AIMv2

Baichuan-Audio

百川智能推出的Baichuan-Audio是一款先进的端到端音频大语言模型,具备无缝音频理解与生成的能力,能够实现高质量、可控的实时中英文对话。该模型采用多码本离散化技术,成功将音频信号转化为离散标记,保留语义和声学信息,并通过音频处理模块增强音频特征的识别能力。Baichuan-Audio基于双阶...
AI工具箱8个月前
Baichuan-Audio

SongGen

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学合作开发的一种先进的单阶段自回归Transformer模型,专门用于根据文本生成歌曲。该模型接受歌词和描述性文本(如乐器、风格、情感等)作为输入,提供两种输出模式:混合模式和模式。混合模式生成包含人声和伴奏的合成音频,而模式则分别生成...
AI工具箱8个月前
SongGen

CorrDiff

NVIDIA推出了一款名为CorrDiff的生成式人工智能(AI)模型,专注于处理全球气象数据。该模型采用先进的技术,能够将低分辨率的气象数据转换为高分辨率数据,从而提高气象预测的精确性和效率。CorrDiff的处理流程包括使用UNet架构来预测大气变量的条件均值,然后通过扩散模型对这些预测结果进行...
AI工具箱8个月前
CorrDiff

Smallpond

DeepSeek开发的Smallpond是一个轻量级数据处理框架,基于DuckDB和3FS打造,旨在高效处理PB级数据集。结合DuckDB的分析能力和3FS的分布式存储特性,Smallpond能够快速加载、查询和转换数据,适用于需要大规模数据处理的用户和开发者。 Smallpond是专为高性能和大规...
AI工具箱8个月前
Smallpond

3FS – DeepSeek

3FS – DeepSeek推出的高性能分布式文件系统是专为人工智能训练和推理任务而设计的效率高效的文件系统。利用现代SSD和RDMA网络技术,3FS能够整合大量SSD的吞吐量和存储节点的网络带宽,实现高达6.6 TiB/s的读取吞吐量。该系统具有强一致性并提供通用文件接口,用户无需学习新的存储AP...
AI工具箱8个月前
3FS – DeepSeek

GPT-4.5强大升级版

GPT-4.5是OpenAI最新推出的旗舰语言模型,具有卓越的性能。其采用了扩展的无监督学习方法,显著提升了模式识别、知识广度和创意生成能力,同时降低了虚假信息的输出,使得模型生成的对话更加自然并贴近人类交流习惯。GPT-4.5具备丰富的知识库、高度的情感智能和对用户意图的准确理解,适用于广泛的场景...
AI工具箱8个月前
GPT-4.5强大升级版

Phi-4-Multimodal

Phi-4-Multimodal是微软最新推出的多模态语言模型,拥有 56 亿个参数,能够整合语音、视觉和文本处理于一个统一的框架内。该模型在多项基准测试中表现卓越,在自动语音识别(ASR)和语音翻译(ST)任务中,以 6.14% 的单词错误率高居 Hugging Face OpenASR 排行榜榜...
AI工具箱8个月前
Phi-4-Multimodal

Profiling Data

深度学习框架中的性能分析工具Profiling Data专为DeepSeek开源训练和推理框架而设计,采用PyTorch Profiler收集详细的程序运行数据。该工具有助于开发者深入分析和优化软件性能,进而提升整个系统的效率。 Profiling Data记录了程序的时间消耗、资源利用率以及通信模...
AI工具箱8个月前
Profiling Data

IndexTTS

IndexTTS 是 B 站推出的文本转语音模型,它结合了 XTTS 和 Tortoise 模型的先进技术,采用了 GPT 风格的生成技术。这个系统在将文本转换为自然流畅的语音方面表现出色,尤其擅长处理中文文本。IndexTTS 不仅支持拼音纠正汉字发音,还可以利用标点符号来精准控制停顿,有效解决多...
AI工具箱8个月前
IndexTTS

Phi-4-Mini

Phi-4-Mini是微软推出的一款专注于文本任务的小型语言模型,是 Phi-4 系列的最新成员,拥有 38 亿参数。该模型建立在密集的解码器-only Transformer 架构之上,结合了分组查询注意力、20 万词汇量和输入输出嵌入的共享,旨在提高速度和效率。Phi-4-Mini 在文本推理、...
AI工具箱8个月前
Phi-4-Mini

R1-Onevision

R1-Onevision是一款开源的多模态大语言模型,专注于处理复杂的视觉推理任务。它基于 Qwen2.5-VL 进行微调,能够有效整合视觉和文本数据,实现精准的多模态信息解析。在数学、科学、深度图像理解和逻辑推理等领域表现优秀,超越了竞争模型 Qwen2.5-VL-7B 和 GPT-4V。 R1-...
AI工具箱8个月前
R1-Onevision

VideoGrain

VideoGrain是由悉尼科技大学与浙江大学共同开发的视频编辑框架,旨在实现零样本多粒度视频编辑,包括类别级、实例级和部件级的精细化修改。该框架结合了调节时空交叉注意力与自注意力机制,以提高文本提示对目标区域的控制能力,并确保不同区域特征的分离,有效解决了扩散模型中存在的语义错位和特征耦合问题。相...
AI工具箱8个月前
VideoGrain

腾讯首款混合动力Turbo S发布

腾讯混元Turbo S是腾讯最新推出的前沿快思考模型,采用了创新的Hybrid-Mamba-Transformer融合架构。这一设计有效降低了传统Transformer的计算复杂性,减少了KV-Cache缓存占用,同时大幅提高了训练和推理效率。将Mamba架构无损应用于超大型MoE模型,Turbo ...
AI工具箱8个月前
腾讯首款混合动力Turbo S发布

EPLB(Expert Parallelism Load Balancer)

EPLB(Expert Parallelism Load Balancer)是DeepSeek开发的专家并行负载均衡器,旨在解决大规模模型训练中不同专家模型之间负载不均的问题。该负载均衡器采用冗余专家策略,通过复制高负载专家并合理分配至不同的GPU,以实现负载均衡。同时,结合了group-limit...
AI工具箱8个月前
EPLB(Expert Parallelism Load Balancer)

OctoTools

斯坦福大学推出的开源智能体框架 OctoTools 旨在应对复杂的推理任务,其主要功能包括:处理多样化任务、工具卡片封装、多步骤推理与任务规划以及工具集优化等。通过工具卡片,OctoTools能以标准化方式集成各种工具,规划器生成任务计划,执行器执行命令,并通过多步推理逐步解决问题。项目的官网地址为...
AI工具箱9个月前
OctoTools

Flame

Flame是一款开源的多模态AI模型,专为将UI设计截图转化为高质量的现代前端代码而设计。该模型利用视觉语言建模、自动化数据合成以及结构化训练流程,能够生成符合React等现代前端框架标准的代码,支持组件化、状态管理及动态交互功能。相较传统模型仅生成静态代码的方式,Flame采用创新的数据合成方法,...
AI工具箱9个月前
Flame

SurveyX

SurveyX是由中国人民大学、悉尼大学和中国东北大学共同开发的一种基于大型语言模型(LLMs)的自动化生成学术综述的创新系统。用户只需提供论文标题和相关关键词,SurveyX即可快速生成高质量、针对特定领域的学术综述或研究论文。这一系统采用了前沿的语言模型技术,辅以高效的数据处理和文献检索能力,显...
AI工具箱9个月前
SurveyX

TinyR1-Preview

奇虎360与北京大学联合推出了TinyR1-Preview,这是一款推理模型,参数量为32B。该模型以低参数量实现了类似Deepseek-R1-671B的性能。在数学领域(AIME评测),TinyR1-Preview的得分为78.1,接近于原版R1(79.8分),远超过70B的Deepseek-R1...
AI工具箱9个月前
TinyR1-Preview

DeepGEMM

DeepGEMM是DeepSeek开发的开源库,旨在提供高效且简洁的FP8矩阵乘法(GEMM)功能。此库特别针对NVIDIA Hopper架构的张量核心进行优化。除了支持常规的GEMM操作外,DeepGEMM还能够在混合专家(MoE)模型中进行分组矩阵乘法操作。其采用即时编译(JIT)技术,在运行时...
AI工具箱9个月前
DeepGEMM

Wan2.1

Wan2.1是一款由阿里云推出的开源AI视频生成大模型,具备强大的视觉创作能力。该模型支持文本生成视频和图像生成视频两大任务,同时提供专业版和极速版两种不同尺寸的模型:专业版含有14B参数,擅长处理复杂生成和物理建模,性能卓越;而极速版含有1.3B参数,在消费级显卡上能够流畅运行,显存需求低,特别适...
AI工具箱9个月前
Wan2.1

PySpur

PySpur是一款开源的,旨在简化人工智能系统开发流程的可视化AI智能体工作流构建工具。用户可以通过直观的拖拽式界面快速构建、测试和迭代AI工作流,无需编写复杂代码。PySpur具备循环与记忆功能、文件上传、结构化输出、RAG技术和多模态数据处理(包括文本、图像、视频等),并能与多种工具(如Slac...
AI工具箱9个月前
PySpur

VLM-R1

VLM-R1是浙江大学Om AI Lab推出的一款视觉语言模型,采用强化学习技术。该模型可以根据自然语言指令精确定位图像中的目标物体,例如根据描述"图中红色的杯子"找到对应图像区域。VLM-R1建立在Qwen2.5-VL架构基础上,结合了DeepSeek的R1方法,通过强化学习优化与监督微调(SFT...
AI工具箱9个月前
VLM-R1

AingDesk

AingDesk是一款开源客户端软件,旨在帮助用户轻松将数百种AI模型快速部署到个人电脑上。其一键部署功能使用户无需具备专业技术背景,即可完成复杂模型的安装过程。此外,AingDesk还具备联网搜索功能,可以通过百度、搜狗等搜索引擎获取实时信息,提高AI回答的准确性与时效性。用户可以利用模型共享功能...
AI工具箱9个月前
AingDesk

memobase

memobase 是一个开源的长期记忆系统,专注于用户画像,旨在为生成式人工智能(GenAI)应用提供支持。该系统赋予虚拟助手和教育工具等应用用户记忆的能力,帮助人工智能有效地记住、理解用户,并与之共同成长。memobase 通过结构化的用户信息存储,提供时间感知的记忆功能、灵活的配置选项以及高效的...
AI工具箱9个月前
memobase

MME-CoT

MME-CoT是一项由香港中文大学(深圳)、香港中文大学、字节跳动、学、上海人工智能实验室、宾夕法尼亚大学及清华大学等多家机构共同开发的基准测试框架,旨在评估大型多模态模型(LMMs)在链式思维(CoT)推理能力方面的表现。该框架覆盖了数学、科学、OCR、逻辑、时空和一般场景等六大领域,内含1,13...
AI工具箱9个月前
MME-CoT

MeteoRA

南京大学计算机科学与技术系的研究团队推出了一种名为MeteoRA的多任务嵌入框架,旨在优化大型语言模型(LLM)的性能。该框架将多个任务特定的LoRA(低秩适配器)整合到一个基础模型中,促进了高效的参数复用及自主任务切换。MeteoRA基于混合专家(MoE)架构,利用可训练的门控网络动态选择最适合当...
AI工具箱9个月前
MeteoRA
1 2 3