【AI日报·11/21】生物AI研究连续突破，国内首个对标o1的大模型

加入交流群微信公众号图标

关注公众号联系我们图标

AI工具箱请求更新图标

体系设计

“锵锵！这里是心猿社滴杂务工之‘工具酱’！每日十分钟，最全的AI大事，全知道！”

“别开场了，省流日报，你每多说一个字，就浪费了心猿社辣么多用户整整二字节的流量！”

“嘿！到我这改了还？”

“导播导播，直接开场！”

技术突破（性能&易用性）

DeepSeek推理模型R1-Lite-Preview性能超前【自然语言·国内性能突破】

DeepSeek最近推出了其首款推理模型R1-Lite-Preview，该模型在多个权威评测中表现出色，甚至超越了OpenAI的o1-preview模型。R1-Lite-Preview以其强大的推理能力和开源透明性为特点，预计将在教育、科研和企业应用等多个领域发挥重要作用。DeepSeek计划将正式版R1模型完全开源，并部署API，以推动AI技术的发展和应用。

官网链接：https://www.deepseek.com/

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互【AI游戏·性能突破】

首个AI基础世界模拟器The Matrix由全华人团队打造，实现了无限长、高保真720p真实场景视频的生成，并支持实时交互。该项目通过结合3A游戏监督数据和现实世界场景无监督视频，在零样本情况下理解和预测不同环境中物体的行为和交互。The Matrix的核心由交互模块、移窗去噪过程模型和流一致性模型组成，已在时长和效果上领先于近期主流游戏仿真生成模型。

项目地址（需魔法才能通畅）：https://thematrix1999.github.io/#

aiOla开源AI音频转录模型Whisper-NER保护隐私【AI音频·安全性发展】

aiOla最近推出了Whisper-NER，这是一个基于OpenAI开源模型Whisper开发的AI音频转录模型，它能够实时识别并遮蔽音频文件中的敏感信息，如个人姓名、地址和电话号码，以保护用户隐私。该模型支持多语言和口音，具有高效准确的转录性能，并且完全开源，可在Hugging Face和Github上获取源代码。

Hugging Face 链接（需魔法）：https://huggingface.co/aiola/whisper-ner-v1

Github 链接：https://github.com/aiola-lab/whisper-ner

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机【AI计算机研究·性能突破】

新晋诺贝尔化学奖得主、DeepMind创始人哈萨比斯参与的新论文在《Nature》发表，介绍了AI解码器AlphaQubit，该解码器能够以SOTA（State of the Art）准确性识别并纠正量子计算机中的错误，推动量子计算机的可靠性发展，为科学突破和新领域发现铺平道路。

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods【AI生物研究·性能突破】

微软和华盛顿大学的研究团队开发了一款名为BiomedParse的AI模型，该模型能够通过简单的临床语言提示，一键解析包括MRI、CT和病理学在内的九大生物医学成像模式，无需手动标注或边界框操作，即可高精度识别和分割图像中的复杂、不规则形状对象。BiomedParse模型已在Nature Methods上发表，为科学家和临床医生提供了一个统一且智能的多模式图像解析方案。

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病【AI生物研究·易用性突破】

清华大学智能产业研究院孵化的无锡紫荆智康科技有限公司开发的“紫荆AI医生”系统已上线内测，首批42位AI医生覆盖21个科室，旨在提供低成本、便捷、优质的医疗服务，预计将于2025年上半年向公众开放。

AI重要事件&报道

门罗风投：企业生成式AI支出激增500%，AI Agent成新焦点

美国风险投资机构Menlo Ventures发布的《2024年企业生成式AI现状》报告显示，今年企业在生成式AI上的支出激增500%，达到138亿美元。其中，OpenAI市场份额下滑至34%，而Anthropic市场份额翻倍至24%

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在由图灵奖得主杨立昆联合推出的LiveBench榜单上，以57.68分的成绩位列全球第五、国内第一，成为前十名中唯一的国产公司。该榜单被认为“全球首个无法作弊的LLM基准测试”。

「颠覆性」科学没有衰落，谷歌 AI 推动科学发展的 9 种方式

这篇文章讨论了人工智能在医疗领域的应用，特别是在影像诊断方面。作者指出，人工智能技术如深度学习在医学影像分析上显示出巨大潜力，能够提高诊断的准确性和效率。同时，文章也提到了相关技术在临床实践中的挑战和限制，例如数据质量和算法可解释性。整体而言，文章强调人工智能在医疗影像领域的应用前景广阔，但需进一步研究和优化。

推荐看一看，能拓宽不少的视野，AI时代，信息和视野更加重要。

AI发烧友&Github资讯

适合开发者/程序员等喜欢探索AI的用户哦~

【含工作流】王炸级！一致性穿衣模型和工作流，实物衣服，一键穿上。模特看了都要流泪。

具体进B站详情页可以查看。

工作流地址1：https://github.com/TTPlanetPig/Comfyui_Object_Migration/tree/main/workflow

工作流地址2：https://civitai.com/models/950776/cloth-migration-and-dressing-style-transfer

模型地址1：https://civitai.com/models/950736/cloth-migration-and-dressing-style-transfer

模型地址2（需魔法）：https://huggingface.co/TTPlanet/Migration_Lora_flux

可能用到的模型链接: https://pan.baidu.com/s/1lS8E0-DoncqMy2_ZpNxFdg?pwd=7ggy 提取码: 7ggy

作者知识星球（涉及付费，请用户自行甄别）：https://wx.zsxq.com/group/51111185854224

将任何Logo转化为令人惊艳的周边设计

glif.app 提供了一个基于In-Context LoRA的AI技术，能够将任何Logo转化为令人惊艳的周边设计。这项技术展示了AI在创意设计领域的巨大潜力，并为设计师和品牌方提供了一种革命性的个性化创作工具。

这个早就突破过了，有感兴趣的可以研究研究。

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

AI领域大牛Andrej Karpathy之前推出的仅用1000行代码在CPU/fp32上实现GPT-2训练的项目「llm.c」，现在有了新突破。GitHub上的新项目「Modded-NanoGPT」通过技术迭代，将训练GPT-2级别的模型的时间从45分钟缩短至5分钟，这一成果得到了Karpathy的认可。

对轻量级，口袋级模型感兴趣的可以看看。

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

DeepMind团队在Nature杂志上发表的研究显示，他们尝试将水印技术和投机采样结合，以提升大语言模型的推理效率并降低成本，使其更适合大规模生产环境。然而，马里兰大学的研究人员从理论角度分析后发现，无法同时实现水印检测效果和生成速度的最优，即这两项指标无法两全其美。

水印技术：
- 目的：在机器学习模型中，水印技术主要用于版权保护和模型追踪。通过在模型的输出中嵌入特定的“水印”，可以追踪模型的使用情况，识别模型的来源，以及防止模型被非法复制或滥用。
- 实现：在模型训练过程中，通过特定的算法在模型的权重或输出中嵌入难以察觉的标记。这些标记在模型推理时被激活，使得输出结果中包含可以识别的模式或信息。
- 应用：水印技术可以用于确保模型的知识产权，防止模型被非法复制或用于不当目的。它也可以帮助模型所有者在模型被滥用时追踪责任。
投机采样（Speculative Sampling）：
- 目的：投机采样是一种优化技术，用于提高机器学习模型的推理效率，特别是在处理大规模数据或复杂任务时。
- 实现：这种方法通过预先计算和存储可能的输入数据的响应，当实际输入数据到来时，可以直接从这些预先计算的结果中选择最相关的输出，从而减少实时计算的需求。
- 应用：投机采样可以显著减少模型推理时的延迟，提高响应速度，特别是在需要快速响应的应用场景中，如在线推荐系统、实时翻译等。

鉴定网络热门AI事件（陪我一起看资讯吧~）

估值超3500亿！马斯克xAI又融资355亿，用于买英伟达GPU

埃隆·马斯克旗下的人工智能公司xAI在最新一轮融资中筹集了50亿美元，使得公司估值达到500亿美元。这笔资金将用于购买10万块英伟达GPU，以扩大xAI在田纳西州孟菲斯的数据中心规模，支持特斯拉的完全自动驾驶技术。

英伟达Q3业绩会实录：全力推进Blackwell生产本季度交付量将超此前预估

英伟达在2025财年第三财季财报中宣布，营收同比增长94%，达到350.82亿美元，净利润同比增长100%，预计第四财季营收将达到375亿美元。公司全力推进Blackwell AI芯片的生产，本季度交付量将超过预估，显示出市场需求强劲。

快手科技AI用户数突破500万大关

快手科技CEO程一笑宣布，公司的AI平台可灵AI自6月推出以来，用户数已超500万，月流水超千万人民币，未来将探索更多元的变现模式。

月流水过千万是没想到的，不过也是好事情。

PDF 转脑残视频在TikTok引发热议

近期，一种名为”PDF转脑残视频”的AI学习工具在TikTok上引发热议，它通过将教材内容转换成AI语音并配合ASMR剪辑或游戏画面，为学习者提供独特的学习体验。尽管这种工具为一些学生提供了新的学习方式，但专家警告过度依赖可能导致学习内容失真。这一现象展示了年轻一代对传统学习模式的创新性颠覆。

“阿里巴巴发布超百个开源模型，引领AI技术重塑行业生态”

阿里巴巴集团CEO吴泳铭在2024年世界互联网大会乌镇峰会上宣布，阿里已发布超百个开源模型，累计下载量达4000万次，其中基于“通义千问”模型的二次开发模型超过7.8万个，吸引了800万活跃开发者。目前，30多万家企业已接入通义大模型，利用AI技术改造多个行业。阿里云API调用价格在过去一年下降了97%，公司将继续降低AI算力成本，以服务开发者和企业。

OpenAI CEO年薪只有7.6万美元，身价达到20亿美元

OpenAI CEO阿尔特曼去年的年薪仅为76001美元，而他的个人财富据估计至少达到了20亿美元。尽管年薪不高，阿尔特曼的财富主要来源于他在科技领域的投资，包括Uber、Airbnb等公司的股份。相关报道还提到，阿尔特曼多次声明不会持有OpenAI的股份，以避免个人财富利益影响商业决策。

额…不还有1元薪资的嘛，财富积累到一定程度后，避税则成为了首选。

微软AI“口译员”预览，翻译加克隆

微软在微软技术大会（Microsoft Ignite）上宣布了一项新的AI实时翻译功能，该功能不仅能实时翻译语音，还能克隆说话者的声音，以提供更具个性化和感染力的交流体验。预计这项功能将于2025年初推出，用户可以在会议中手动激活并选择所需语言。此外，微软还计划通过Copilot AI功能将AI语言支持扩展到PPT，允许用户将演示文稿翻译成40种语言中的任何一种。