AI产品

共 134 篇文章

Mistral OCR：快速准确识别文字的优秀工具

Mistral OCR 是 Mistral AI 最新推出的一款光学字符识别（OCR）工具，专为处理复杂文档而设计。该工具能够全面解析文档中的文本、图像、表格和数学公式，支持多种语言和字体，准确率高达99.02%。在各项基准测试中，Mistral OCR 的表现超越了 Google Document...

AI工具箱8个月前

Mistral OCR：快速准确识别文字的优秀工具

Pinch

Pinch是一款创新的实时AI语音翻译视频会议平台，旨在消除语言障碍，支持超过30种语言的即时语音翻译。Pinch提供口译模式和同声传译模式，分别支持38种和32种语言，满足不同场景下高精度和高效率的需求。Pinch的核心优势在于无需字幕的自然流畅语音翻译，让用户更专注于交流。该平台支持多人视频通话...

AI工具箱8个月前

Pinch

VDraw

VDraw是一款基于人工智能技术的信息图表生成工具，旨在帮助用户快速将文字、文档或视频内容转化为专业而个性化的视觉展示。用户可对生成的图表进行独特的定制，例如调整颜色、字体、添加图片和品牌标志等。VDraw支持多种内容格式，包括文本、PDF 和视频，并提供便捷的分享和嵌入功能。通过VDraw，复杂信...

AI工具箱8个月前

VDraw

Microsoft Dragon Copilot

微软Dragon Copilot是专为医疗行业设计的人工智能语音助手，旨在协助临床医生简化文档处理、信息检索和任务自动化。结合了Dragon Medical One的先进语音识别技术和DAX Copilot的环境感知AI功能，该产品支持多语言的语音笔记生成、自动化工作流程、个性化文档格式设置以及高效...

AI工具箱8个月前

Microsoft Dragon Copilot

Asyncflow v1.0：打造高效异步流程管理

Asyncflow v1.0是一款由播客平台Podcastle推出的AI文本转语音模型。这一模型支持超过450种语音选项，能够为各种文本内容生成高质量的语音朗读，并适用于多种语言和风格。通过优化技术，Asyncflow v1.0降低了语音克隆的训练成本，实现仅需几秒钟的录音即可完成。同时，该模型整合...

AI工具箱8个月前

Asyncflow v1.0：打造高效异步流程管理

GaussianCity

南洋理工大学 S-Lab 团队开发的 GaussianCity 是一款高效且无边界的3D城市生成框架，采用了先进的3D高斯绘制（3D-GS）技术。该框架通过紧凑的 BEV-Point 表示方法，有效地控制显存使用量，解决了传统方法在生成大规模场景时的显存和存储需求瓶颈。GaussianCity 还引...

AI工具箱8个月前

GaussianCity

SpeciesNet

SpeciesNet是Google开源的一款人工智能模型，旨在分析相机陷阱拍摄的图像来识别动物物种。该模型基于超过6500万张图像进行训练，能够识别超过2000种标签，涵盖各种动物物种、分类单元以及非动物对象。SpeciesNet由MegaDetector和SpeciesNet分类器两个主要组件构成...

AI工具箱8个月前

SpeciesNet

SuperGPQA

SuperGPQA是由字节跳动豆包大模型团队与M-A-P联合推出的一个全面的知识推理基准测试集。该测试集涵盖了285个研究生级学科，包含26529道专业题目。项目旨在解决传统评测基准在学科覆盖不足、题目质量参差不齐及评测维度单一等问题。通过专家与大语言模型的协同构建，SuperGPQA保证了题目高质...

AI工具箱8个月前

SuperGPQA

NotaGen

NotaGen – 音乐学院联合北航、清华等推出的音乐生成模型 NotaGen是音乐学院、北京航空航天大学和清华大学等机构合作开发的音乐生成模型。这一模型受到大型语言模型（LLM）训练方法的启发，旨在创作高质量的古典乐谱。NotaGen采用了预训练、微调和强化学习的结合方式，其预训练阶段吸收了超过1...

AI工具箱8个月前

NotaGen

UX Pilot

UX Pilot是一款基于人工智能的UX/UI设计工具，其目的在于改进传统设计流程。该工具为用户提供了从需求分析到代码交付的全面解决方案，利用智能技术加速并简化设计任务。UX Pilot具备设计引擎，可以快速生成高保真的界面并进行低保真线框图的探索，同时与Figma进行深度集成，确保设计过程的无缝对...

AI工具箱8个月前

UX Pilot

NextGenAI

NextGenAI为OpenAI发起的全球性合作项目，联合了15所著名高等学府和研究机构，旨在利用人工智能技术推动教育与研究的进展。这一联盟得到OpenAI提供的5000万美元资金支持、计算资源和API接口。各成员机构在医疗、教育和图书馆等领域展开多项创新应用，例如加速罕见疾病的诊断和数字化稀有文献...

AI工具箱8个月前

NextGenAI

OmniAlign-V

OmniAlign-V是由上海交通大学、上海AI Lab、学、复旦大学和浙江大合合作推出的高质量多模态数据集，旨在增强多模态大语言模型（MLLMs）与人类偏好之间的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，并结合开放式、知识丰富的问题与答案。 OmniAlign-V的主...

AI工具箱8个月前

OmniAlign-V

DiffRhythm

DiffRhythm是由西北工业大学与香港中文大学（深圙）联合研发的一款先进的端到端音乐生成工具。它基于潜扩散模型技术，可快速生成包含人声和伴奏的完整音乐作品。用户只需输入歌词和风格提示，DiffRhythm就能在短短10秒内创作出最长达4分45秒的高质量音乐，显著提高了音乐创作效率，解决了传统生成...

AI工具箱8个月前

DiffRhythm

Proxy Lite

Proxy Lite 是一款开源的轻量级视觉语言模型（VLM），其参数数量为 3B，专注于自动化网页操作。该模型能够像人类一样执行浏览器操作，包括网页交互、数据抓取和表单填写等重复性任务，从而显著降低自动化成本。它采用了“观察-思考-工具调用”三步决策机制，具备卓越的泛化能力，资源占用低，可高效运行...

AI工具箱8个月前

Proxy Lite

WiseMind AI

WiseMind AI 是一款基于人工智能技术的智能学习助手，致力于提供高效的学习和知识管理体验。该平台支持多种文档格式，包括网页、PDF、Markdown等，能够迅速提取文档的核心内容，生成摘要、思维导图和智能笔记。通过将复杂信息转化为易于理解的知识卡片，WiseMind AI帮助用户更好地掌握和...

AI工具箱8个月前

WiseMind AI

TrendPublish

TrendPublish是一个基于人工智能的趋势发现及内容发布平台。它通过多渠道数据采集，从Twitter/X、各类网站等来源获取信息，并利用DeepseekAI、千问等先进 AI 服务进行智能化总结、提取关键信息和生成吸引人的标题。这一系统支持将内容自动发布到微信公众号，同时提供自定义模板和定时发...

AI工具箱8个月前

TrendPublish

DiffBrush

DiffBrush是由北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学联合开发的一款图像生成与编辑框架。该框架不仅无需复杂的训练，还能通过简单的手绘草图直观地控制图像生成过程。DiffBrush利用了预训练的文本到图像（T2I）模型，结合颜色引导、实例与语义引导、潜在空间再生等先进技术，...

AI工具箱8个月前

DiffBrush

WeGen

WeGen是由中国科学技术大合作上海交通大学、微信团队及中国科学院等多家机构共同研发的一个综合性多模态生成模型。该模型结合了多模态大语言模型（MLLM）与扩散模型，旨在通过自然对话实现丰富的视觉生成任务。用户可以通过WeGen进行文本到图像生成、条件生成、图像编辑、风格迁移等多种类型任务，并获得多样...

AI工具箱8个月前

WeGen

小荷AI医生：智能呵护您的健康

小荷AI医生是由字节跳动旗下的小荷健康推出的一款医疗健康AI大模型产品，基于豆包大模型而开发，旨在为用户提供免费的健康咨询服务。小荷AI医生通过人机对话的方式进行诊前信息收集、分诊导诊、健康咨询回复、医学报告解读及AI用药助手等多项功能。用户可在抖音App内便捷访问。小荷AI医生的主要功能包括健康咨...

AI工具箱8个月前

小荷AI医生：智能呵护您的健康

抓住平台商机：如何利用Platus实现商业增长？

Platus是一家专注于运用人工智能和无代码平台优化企业法律流程的创新法律科技初创企业。该平台为中小企业和法律团队提供高效且自动化的法律基础设施，涵盖了文件起草、审查、签署和公证等多项服务。用户可以通过直观的拖放界面快速构建和管理法律工作流，而AI工具则能自动识别重要条款和潜在风险，确保合规性。此外...

AI工具箱8个月前

抓住平台商机：如何利用Platus实现商业增长？

X-Dancer

字节跳动与加州大学圣地亚哥分校和南加州大学的研究团队联合开发了一项创新性的音乐驱动人像舞蹈视频生成框架，名为X-Dancer。这一框架利用了自回归变换器和扩散模型，基于2D人体姿态建模，能够从单张静态图像生成多样化且逼真的全身舞蹈视频，实现舞蹈动作与音乐节奏的精准对齐。 X-Dancer是一种先进的...

AI工具箱8个月前

X-Dancer

GuideGeek

GuideGeek是一个由Matador Network开发的智能旅行助手，旨在为用户提供高效且个性化的旅行规划服务。利用OpenAI技术，它能够通过WhatsApp、Instagram和Facebook Messenger等社交平台与用户进行实时互动，用户无需下载专门的应用程序。用户只需输入旅行时...

AI工具箱8个月前

GuideGeek

Liquid

Liquid是一款由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架。该框架利用VQGAN技术将图像转换为离散的视觉token，并与文本token共享同一词汇空间，从而使得大型语言模型（LLM）在视觉生成和理解任务中发挥作用，而无需对模型结构进行修改。 Liquid的主要功能包括视觉生成、视...

AI工具箱8个月前

Liquid

DeepTutor

DeepTutor是一款基于人工智能的智能辅导系统，旨在通过个性化的学习体验，帮助用户高效掌握复杂的学术内容。它能够深入理解多种类型的资料，包括文本、图表和公式等，并将复杂的学术或技术问题分解为易于理解的部分。用户可以通过上传各种文档（如PDF格式的课堂笔记、研究论文等），选择不同的模式（基本模式或...

AI工具箱8个月前

DeepTutor

高效编辑文案：AVD2独家揭秘，新鲜资讯抢先知！

AVD2 是一个由清华大学与香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等多所机构共同开发的自动驾驶事故视频理解与生成框架。该框架旨在提高自动驾驶事故视频的理解能力，通过生成与详细自然语言描述相对齐的视频来增强对复杂事故场景的解析效果。AVD2整合了视频生成与事故分析技术，能够生成具...

AI工具箱8个月前

高效编辑文案：AVD2独家揭秘，新鲜资讯抢先知！

Promptimize AI

Promptimize AI是一款专注于提升AI提示词质量的工具，旨在通过精准的提示词优化，帮助用户提高AI输出的效率和效果。作为一款浏览器插件，它兼容多种主流AI平台，如ChatGPT和Gemini，允许用户一键优化提示词，使其更具针对性和连贯性。该工具包括一键增强提示词、动态变量管理及提示词库保...

AI工具箱8个月前

Promptimize AI

Kiss3DGen

Kiss3DGen是一种基于图像扩散模型的3D资产生成框架，旨在利用预训练的2D图像扩散模型，快速生成、编辑和提升3D对象的质量。其核心技术在于创建“3D Bundle Image”，即结合多视图图像和相应法线图的拼贴表示，其中法线图用于重建3D网格，多视图图像则为模型提供纹理映射。Kiss3DGe...

AI工具箱8个月前

Kiss3DGen

QwQ-32B

阿里通义千问开源的最新推理模型 QwQ-32B 是一款具有320亿参数的强化学习推理模型，由阿里巴巴推出。这一模型在数学推理和编程等领域表现卓越，性能与6710亿参数的 DeepSeek-R1 满血版相当。QwQ-32B 集成了智能体功能，可根据外部环境的反馈调整推理过程，展现出良好的适应性和推理能...

AI工具箱8个月前

QwQ-32B

Manus

《Manus – Monica.im 推出的全球首款通用型 AI Agent》 Manus是由Monica团队开发的全球首款通用型AI Agent。相比传统人工智能，Manus不仅具备思考、规划和执行复杂任务的能力，还能够自主完成任务规划到执行的全过程，覆盖文件处理、数据分析、代码编写和内容创作等多...

AI工具箱8个月前

Manus

Chat2SVG

Chat2SVG框架是一个专注于文本描述转换为高质量矢量图形（SVG）的生成平台。它融合了大型语言模型（LLMs）与图像扩散模型的技术，能够自动生成具有语义意义的SVG图形。Chat2SVG通过多阶段的处理流程实现，首先利用LLMs将文本描述转化为含有语义的SVG模板，接着运用图像扩散模型进行细节优...

AI工具箱8个月前

Chat2SVG

PodAgent

PodAgent是由香港中文大学、微软和小红书联合开发的播客生成框架。该框架模拟真实的脱口秀环境，通过多智能体协作系统自动生成结构化的对话内容。其中包括主持人、嘉宾和编剧，他们协作生成丰富对话脚本。此外，PodAgent还提供多样化的声音库，确保声音与角色匹配，引入基于大语言模型的语音合成技术，生成...

AI工具箱8个月前

PodAgent

TheoremExplainAgent（TEA）

TheoremExplainAgent（TEA）是由滑铁卢大学与Votee AI等机构联合开发的多模态智能代理系统。该系统旨在生成长达5分钟以上的动画教育视频，帮助用户更深入理解数学和科学定理。涵盖多个STEM领域，包括数学、物理、化学和计算机科学。为评估性能，团队推出了TheoremExplain...

AI工具箱8个月前

TheoremExplainAgent（TEA）

SpatialVLA

SpatialVLA是由上海AI Lab、中国电信人工智能研究院以及上海科技大学等机构联合开发的先进空间具身通用操作模型。通过依托百万级真实数据进行预训练，SpatialVLA赋予机器人出色的3D空间理解能力。它利用Ego3D位置编码将3D空间信息与语义特征融合，采用自适应动作网格实现连续动作的离散...

AI工具箱8个月前

SpatialVLA

Light-R1

Light-R1是360智脑推出的一个开源AI模型，专注于数学领域的长思维链推理。该模型具体版本为Light-R1-32B，建立在Qwen2.5-32B-Instruct的基础上，经过与7万条数学数据和双阶段课程学习（SFT+DPO）的训练，成功超越了DeepSeek-R1-Distill-Qwen...

AI工具箱8个月前

Light-R1

BGE-VL

BGE-VL – 智源研究院联合多所高校开源的多模态向量模型。 BGE-VL是由北京智源研究院与多所高校共同开发的一款多模态向量模型，利用大规模合成数据MegaPairs进行训练。该模型专注于多模态检索任务，能够有效处理图文检索和组合图像检索等应用。通过高效的多模态数据合成方法，BGE-VL显著提升...

AI工具箱8个月前

BGE-VL

Aya Vision

Aya Vision是由Cohere开发的新型多模态、多语言视觉模型，旨在增强全球范围内的多语言和多模态沟通能力。支持23种语言，可执行图像描述生成、视觉问答、文本翻译和多语言摘要生成等任务。Aya Vision提供Aya Vision 32B和Aya Vision 8B两个版本，各自在性能和计算效...

AI工具箱8个月前

Aya Vision

全新版本发布：Granite 3.2.0

IBM推出的Granite 3.2是一款开源的多模态AI模型系列，展现出卓越的推理、视觉理解与预测能力。Granite 3.2包含多个版本，其中Granite 3.2 Instruct具备实验性的链式推理功能，Granite Vision 3.2 2B是行业首个视觉语言模型，专注于文档解析。同时，G...

AI工具箱8个月前

全新版本发布：Granite 3.2.0

hyper-ugc

hyper-ugc是一款AI驱动的用户生成内容（UGC）视频创作平台，旨在帮助用户快速制作高质量的短视频。通过AI虚拟形象技术，hyper-ugc能够替代真人出镜，在TikTok、Instagram等多个社交媒体平台上进行视频制作。用户无需具备专业技能，只需简单操作即可在几分钟内创造引人注目的视频作...

AI工具箱8个月前

hyper-ugc

混元图视频

混元图生视频是由腾讯混元团队推出的一款开源图像生成视频模型，用户可上传一张图片并提供简要描述，即可生成时长为5秒的动态视频。该模型具备自动化口型匹配、动作驱动和背景音效生成等功能，适用于写实、动漫及CGI等不同类型的角色和场景，参数容量高达130亿。混元图生视频模型已在腾讯云上线，用户可通过混元AI...

AI工具箱8个月前

混元图视频

CreatorKit

CreatorKit是一款先进的AI内容创作工具，专为电商行业设计。利用AI技术，CreatorKit可以高效生成优质的产品图片、视频和广告，同时提供一键生成广告和产品视频的功能。该工具与Shopify深度整合，确保生成内容在各种平台上表现出色。同时，CreatorKit还提供AI图片编辑功能，用户...

AI工具箱8个月前

CreatorKit

1 2 3 4