[AI日报·1/15]迈向AI助理，ChatGPT智能体上线“Tasks”功能

加入交流群微信公众号图标

关注公众号联系我们图标

AI工具箱请求更新图标

体系设计

“锵锵！这里是心猿社滴杂务工之‘工具酱’！每日十分钟，最全的AI大事，全知道！”

“别开场了，省流日报，你每多说一个字，就浪费了心猿社辣么多用户整整二字节的流量！”

“嘿！到我这改了还？”

“导播导播，直接开场！”

技术突破（性能&易用性）

ChatGPT智能体上线“Tasks”功能：智能处理提醒和待办事项【自然语言·易用性突破】

2025年1月15日，OpenAI为ChatGPT推出一项名为“Tasks”的新测试功能，允许用户安排未来的行动和提醒事项，如每周发送全球新闻简报或设置提醒等。该功能目前向Plus、Team和Pro订阅者推出，支持网页端和App端，同时运行的任务限制为10个。此外，OpenAI还将发布一个能够独立控制计算机的自主AI智能体“Operator”，并研发一个代号为“Caterpillar”的项目可能与“Tasks”功能集成。

MiniMax开源MiniMax-01全新系列模型【自然语言·性能突破】

2025年1月15日，MiniMax发布并开源了MiniMax-01全新系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型首次大规模实现线性注意力机制，打破Transformer传统架构记忆瓶颈，参数量达4560亿，单次激活459亿，能处理400万token的输入，是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。其推出旨在满足2025年Agent高速发展对更长上下文的需求，迈出建立复杂Agent基础能力的第一步，且在长文任务上性能优异，API定价低，已在GitHub开源。

Gemini AI实现视觉处理新突破：实时视频与静态图像同步分析【自然语言·性能突破】

Gemini AI实现了视觉处理新突破，能够同时处理实时视频和静态图像，打破了以往的限制。这一技术通过实验性应用AnyChat展示，其成功不仅体现了多流AI视觉处理的现实潜力，还预示着在医疗、工程、教育等众多领域将带来颠覆性变化。开发者可以利用Gemini的技术轻松构建自己的视觉AI应用，AnyChat平台也展示了AI在教育、艺术等领域的广泛应用潜力。

项目地址（需魔法才能通畅）：https://huggingface.co/spaces/akhaliq/anychat

OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理【自然语言·性能突破】

OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型，旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色，能够高效运行于智能手机和平板电脑上。通过模块化设计，MiniCPM-o2.6集成了多种强大组件，支持实时处理和多语言功能。在OpenCompass基准测试中，其视觉任务成绩超过GPT-4V，并具备多语言处理能力，还具备实时处理、语音克隆和情感控制等功能，适用于教育、医疗等多个行业的创新应用。

项目地址：https://github.com/OpenBMB/MiniCPM-o

Demo：https://minicpm-omni-webdemo-us.modelbest.cn/

Topview AI推全球首个支持生成手拿产品的数字人Product Avatar【AI视频·性能突破】

Topview AI近日推出了一款名为“Product Avatar”的全新数字人解决方案，为电商行业带来了颠覆性的变革。这款产品无需真人模特，仅需上传一张产品图片，AI就能立即生成一个手持该产品的数字人进行展示，并同步进行口播讲解。它还具备强大的语音和口型同步功能，用户只需输入文本或音频，数字人就能流畅地进行口播，实现人机互动。Topview AI提供了超过1000个不同国家和地区的数字人模特选择，并且支持动作和姿势的个性化定制，还支持包括中文、英语在内的全球28种以上语言，让产品推广可以无缝对接全球市场。

官网：https://www.topview.ai/zh/ai-product-avatar

科大讯飞星火同传语音大模型发布：达到人类专家译员水平【自然语言·易用性突破】

2025年1月15日，科大讯飞发布国内首个具备端到端语音同传能力的大模型——星火语音同传大模型。该模型在内容完整度、信息准确度以及语言质量上都处于“行业领先水平”，超过谷歌Gemini 2.0和OpenAI GPT-4o，最快实现5秒以内的同传时延，达到人类专家译员的水平，可记录回溯对话内容，还能够连接耳机、音箱等音频设备，支持译文长度反向调控，语音到文本端到端翻译支持流式意群切分、语境理解、信息重组，流式语音合成则支持意群韵律衔接、自适应语速调节。

AI重要事件&报道

阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出了电商场景多模态大模型Valley2，其通过结构改进、数据集构建及训练策略优化提升了模型性能，在多个公开基准测试中表现卓越，尤其在MMBench、MMStar和MathVista等基准上得分颇高，在Ecom-VQA基准测试中超越了其他同等规模的模型。这标志着多模态大型语言模型领域的重要进展，也预示着未来多模态模型将在更广泛的领域发挥关键作用，其还计划发布包含文本、图像、视频和音频模态的全能模型，并引入基于Valley的多模态嵌入训练方法。

项目地址：https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

英伟达400万美投资MetAI几分钟将CAD文件转为3D世界

英伟达对初创公司MetAI进行了400万美元的种子轮融资，推动AI数字双胞胎技术发展。MetAI利用AI和3D技术，可将CAD文件快速转换为功能性3D环境，大幅缩短数字双胞胎的创建时间。今年，MetAI与Kenmec合作，为自动化仓库创建数字双胞胎，将仓库数字双胞胎仿真所需的时间从数千小时缩短至仅3分钟，显著降低了运营和验证的成本。凭借最新融资，MetAI计划扩大研发团队，加速产品开发，并计划于2025年下半年在美国设立办事处，同时将总部迁至美国。

讯飞星火4.0Turbo七大核心能力升级：数学、代码能力超GPT-4o

讯飞星火4.0 Turbo完成全面升级，七大核心能力包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力，均取得了显著的性能提升，尤其在数学和代码能力方面，已成功超越了GPT-4o，成为行业新标杆。此次升级还重磅推出了拥有1750亿参数的星火深度推理模型X1，该模型能够处理更为复杂的信息，进行深层次的数据分析与理解。科大讯飞在研发方面的投入也十分可观，从2020年至2023年，公司累计研发投入高达125亿元，年均研发投入达到29亿元，为讯飞星火4.0Turbo的全面升级提供了坚实的技术支撑。

官网：https://xinghuo.xfyun.cn/desk?ch=xhweb_k1i

AI发烧友&Github资讯

适合开发者/程序员等喜欢探索AI的用户哦~

月之暗面Kimi发布多模态图片理解模型API

1月15日，月之暗面旗下Kimi开放平台发布全新多模态图片理解模型moonshot-v1-vision-preview，该模型完善了moonshot-v1模型系列的多模态能力，具备图像识别、文字识别等功能，可应用于多种场景，为开发者和企业提供了更强大的工具。

小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

Kokoro-TTS是一款小型文本转语音模型，拥有8200万参数，曾位居TTS排行榜首位。其训练过程采用了Vast.ai的A100 80GB vRAM实例，仅需不到20个训练周期和不到100小时的音频数据，且广泛采用了公有领域的音频数据及其他开放许可的音频，确保了数据的合规性。不过，由于训练数据和架构的限制，目前该模型尚不支持声音克隆，主要训练数据集中于长篇朗读和叙述，而不是对话场景。

鉴定网络热门AI事件（陪我一起看资讯吧~）

周鸿祎参演AI短剧开拍，AI做特效、AI硬件齐上阵

360集团创始人周鸿祎参与拍摄并出演的国内首部“AI短剧”已在西安开机，该剧计划于春节期间上线，合作了国内优秀的AI制作团队和知名智能硬件厂商。剧中多处特效画面由纳米AI搜索的图生视频功能生成，一方面能极大节约拍摄成本，另一方面可为观众带来全新的视觉体验。周鸿祎表示，短剧是一种非常好的宣传形式，此次他参演的短剧最大的价值在于其主要面向AI的宣传和普及。

THE END