[AI日报·1/15]迈向AI助理,ChatGPT智能体上线“Tasks”功能

“锵锵!这里是心猿社滴杂务工之‘工具酱’!每日十分钟,最全的AI大事,全知道!”

“别开场了,省流日报,你每多说一个字,就浪费了心猿社辣么多用户整整二字节的流量!”

“嘿!到我这改了还?”

“导播导播,直接开场!”


技术突破(性能&易用性)

ChatGPT智能体上线“Tasks”功能:智能处理提醒和待办事项【自然语言·易用性突破】

2025年1月15日,OpenAI为ChatGPT推出一项名为“Tasks”的新测试功能,允许用户安排未来的行动和提醒事项,如每周发送全球新闻简报或设置提醒等。该功能目前向Plus、Team和Pro订阅者推出,支持网页端和App端,同时运行的任务限制为10个。此外,OpenAI还将发布一个能够独立控制计算机的自主AI智能体“Operator”,并研发一个代号为“Caterpillar”的项目可能与“Tasks”功能集成。

相关资讯:https://www.sohu.com/a/849253456_129720

MiniMax开源MiniMax-01全新系列模型【自然语言·性能突破】

2025年1月15日,MiniMax发布并开源了MiniMax-01全新系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型首次大规模实现线性注意力机制,打破Transformer传统架构记忆瓶颈,参数量达4560亿,单次激活459亿,能处理400万token的输入,是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。其推出旨在满足2025年Agent高速发展对更长上下文的需求,迈出建立复杂Agent基础能力的第一步,且在长文任务上性能优异,API定价低,已在GitHub开源。

相关资讯:https://news.qq.com/rain/a/20250115A0534C00

Gemini AI实现视觉处理新突破:实时视频与静态图像同步分析【自然语言·性能突破】

Gemini AI实现了视觉处理新突破,能够同时处理实时视频和静态图像,打破了以往的限制。这一技术通过实验性应用AnyChat展示,其成功不仅体现了多流AI视觉处理的现实潜力,还预示着在医疗、工程、教育等众多领域将带来颠覆性变化。开发者可以利用Gemini的技术轻松构建自己的视觉AI应用,AnyChat平台也展示了AI在教育、艺术等领域的广泛应用潜力。

相关资讯:https://www.chinaz.com/ainews/14731.shtml

项目地址(需魔法才能通畅):https://huggingface.co/spaces/akhaliq/anychat

OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理【自然语言·性能突破】

OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型,旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色,能够高效运行于智能手机和平板电脑上。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。在OpenCompass基准测试中,其视觉任务成绩超过GPT-4V,并具备多语言处理能力,还具备实时处理、语音克隆和情感控制等功能,适用于教育、医疗等多个行业的创新应用。

相关资讯:https://www.chinaz.com/ainews/14732.shtml

项目地址:https://github.com/OpenBMB/MiniCPM-o

Demo:https://minicpm-omni-webdemo-us.modelbest.cn/

Topview AI推全球首个支持生成手拿产品的数字人Product Avatar【AI视频·性能突破】

Topview AI近日推出了一款名为“Product Avatar”的全新数字人解决方案,为电商行业带来了颠覆性的变革。这款产品无需真人模特,仅需上传一张产品图片,AI就能立即生成一个手持该产品的数字人进行展示,并同步进行口播讲解。它还具备强大的语音和口型同步功能,用户只需输入文本或音频,数字人就能流畅地进行口播,实现人机互动。Topview AI提供了超过1000个不同国家和地区的数字人模特选择,并且支持动作和姿势的个性化定制,还支持包括中文、英语在内的全球28种以上语言,让产品推广可以无缝对接全球市场。

相关资讯:https://www.chinaz.com/ainews/14719.shtml

官网:https://www.topview.ai/zh/ai-product-avatar

科大讯飞星火同传语音大模型发布:达到人类专家译员水平【自然语言·易用性突破】

2025年1月15日,科大讯飞发布国内首个具备端到端语音同传能力的大模型——星火语音同传大模型。该模型在内容完整度、信息准确度以及语言质量上都处于“行业领先水平”,超过谷歌Gemini 2.0和OpenAI GPT-4o,最快实现5秒以内的同传时延,达到人类专家译员的水平,可记录回溯对话内容,还能够连接耳机、音箱等音频设备,支持译文长度反向调控,语音到文本端到端翻译支持流式意群切分、语境理解、信息重组,流式语音合成则支持意群韵律衔接、自适应语速调节。

相关资讯:https://finance.sina.com.cn/tech/roll/2025-01-15/doc-ineezwyx7735727.shtml


AI重要事件&报道

阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出了电商场景多模态大模型Valley2,其通过结构改进、数据集构建及训练策略优化提升了模型性能,在多个公开基准测试中表现卓越,尤其在MMBench、MMStar和MathVista等基准上得分颇高,在Ecom-VQA基准测试中超越了其他同等规模的模型。这标志着多模态大型语言模型领域的重要进展,也预示着未来多模态模型将在更广泛的领域发挥关键作用,其还计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法。

相关资讯:https://baijiahao.baidu.com/s?id=1821274712816802065

项目地址:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

英伟达400万美投资MetAI几分钟将CAD文件转为3D世界

英伟达对初创公司MetAI进行了400万美元的种子轮融资,推动AI数字双胞胎技术发展。MetAI利用AI和3D技术,可将CAD文件快速转换为功能性3D环境,大幅缩短数字双胞胎的创建时间。今年,MetAI与Kenmec合作,为自动化仓库创建数字双胞胎,将仓库数字双胞胎仿真所需的时间从数千小时缩短至仅3分钟,显著降低了运营和验证的成本。凭借最新融资,MetAI计划扩大研发团队,加速产品开发,并计划于2025年下半年在美国设立办事处,同时将总部迁至美国。

相关资讯:https://news.qq.com/rain/a/20250115A03CZW00

讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o

讯飞星火4.0 Turbo完成全面升级,七大核心能力包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力,均取得了显著的性能提升,尤其在数学和代码能力方面,已成功超越了GPT-4o,成为行业新标杆。此次升级还重磅推出了拥有1750亿参数的星火深度推理模型X1,该模型能够处理更为复杂的信息,进行深层次的数据分析与理解。科大讯飞在研发方面的投入也十分可观,从2020年至2023年,公司累计研发投入高达125亿元,年均研发投入达到29亿元,为讯飞星火4.0Turbo的全面升级提供了坚实的技术支撑。

相关资讯:https://www.aitop100.cn/infomation/details/20130.html

官网:https://xinghuo.xfyun.cn/desk?ch=xhweb_k1i


AI发烧友&Github资讯

适合开发者/程序员等喜欢探索AI的用户哦~

月之暗面Kimi发布多模态图片理解模型API

1月15日,月之暗面旗下Kimi开放平台发布全新多模态图片理解模型moonshot-v1-vision-preview,该模型完善了moonshot-v1模型系列的多模态能力,具备图像识别、文字识别等功能,可应用于多种场景,为开发者和企业提供了更强大的工具。

相关资讯:https://finance.sina.com.cn/tech/roll/2025-01-15/doc-ineezwyx7735737.shtml

小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一

Kokoro-TTS是一款小型文本转语音模型,拥有8200万参数,曾位居TTS排行榜首位。其训练过程采用了Vast.ai的A100 80GB vRAM实例,仅需不到20个训练周期和不到100小时的音频数据,且广泛采用了公有领域的音频数据及其他开放许可的音频,确保了数据的合规性。不过,由于训练数据和架构的限制,目前该模型尚不支持声音克隆,主要训练数据集中于长篇朗读和叙述,而不是对话场景。

相关资讯:https://blog.csdn.net/HuggingFace/article/details/136753656


鉴定网络热门AI事件(陪我一起看资讯吧~)

周鸿祎参演AI短剧开拍,AI做特效、AI硬件齐上阵

360集团创始人周鸿祎参与拍摄并出演的国内首部“AI短剧”已在西安开机,该剧计划于春节期间上线,合作了国内优秀的AI制作团队和知名智能硬件厂商。剧中多处特效画面由纳米AI搜索的图生视频功能生成,一方面能极大节约拍摄成本,另一方面可为观众带来全新的视觉体验。周鸿祎表示,短剧是一种非常好的宣传形式,此次他参演的短剧最大的价值在于其主要面向AI的宣传和普及。

相关资讯:https://www.163.com/tech/article/JLUPUS5P00098IEO.html

THE END
喜欢作者就支持一下吧~
点赞12 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情图片快捷回复

    暂无评论内容