“锵锵!这里是心猿社滴杂务工之‘工具酱’!每日五分钟,AI大事全知道!”
“别开场了,省流日报,你每多说一个字,就浪费了心猿社辣么多用户整整二字节的流量!”
“嘿!到我这改了还?”
“导播导播,直接开场!”
重点事件目录
点击查看详情~
非重点事件:鉴定网络热门AI事件
0.1秒生成10秒音频?每分钟仅需0.02美元?世界上最快的AI文本转语音模型:Lightning!【AI配音易用性突破】
世界上最快的AI文本转语音模型可不是我说的,这是他们官网写的。不过也算是名副其实,世面上确实没有比它快的,而且这个速度也确实称得上是实时生成了,并且价格很亲民,每分钟0.02美元。
可惜是外国工具,不过有免费的1美元积分,国内邮箱就可以注册,有感兴趣的可以去试一试。
工具面板
技术支持:有API接口,方便开发者调用。
缺点:国外工具,需要用浏览器翻译使用;只有英文,印度语配音(这一点挺致命的)。
价格:0.02美元/每分钟;免费额度:1美元
工具标签:AI配音;国外工具;英文
相关链接:
官网(需魔法才能完整显示):https://smallest.ai/blog/lightning-fast-text-to-speech
AI渲染黑神话?GameGen-X突破游戏AI!【AI游戏性能突破】
实际上,随着视频AI的突破,游戏AI的渲染早就应该有了进展才对。
GameGen-X,交互式开放世界游戏视频生成工具,这个工具其他的功能只能算是视频AI突破。但它实现了多模态交互控制,这个是真正游戏AI的突破。
工具面板
GameGen-X 官网介绍:GameGen-X是我们最新推出的扩散变压器模型,专为生成和交互控制开放世界游戏视频而设计。该模型通过模拟游戏引擎的多种功能,如创新角色、动态环境、复杂动作和多样化事件,促进高质量的开放域生成。此外,它还提供交互式可控性,允许根据当前剪辑预测和改变未来内容,实现游戏模拟。
数据集构建:为了实现这一愿景,我们从零开始收集并构建了开放世界视频游戏数据集(OGameData)。这是第一个也是最大的开放世界游戏视频生成和控制数据集,包含从150多个游戏中采样的超过一百万个不同的游戏视频片段,并配有来自GPT-4o的信息性字幕。
训练过程:GameGen-X 经历了两阶段的训练过程,包括基础模型预训练和指令调整。在预训练阶段,模型通过文本到视频生成和视频延续进行训练,使其具备生成长序列、高质量开放域游戏视频的能力。为了实现交互式可控性,我们设计了InstructNet以整合与游戏相关的多模态控制信号。在指令调整期间,仅更新InstructNet,而预训练的基础模型保持冻结,实现交互式可控性的集成,同时保持生成的视频内容的多样性和质量。
工具标签:AI游戏;AI视频;国外工具;英文;开源
相关链接:
官网:https://gamegen-x.github.io/
项目地址(需魔法才能完整显示):https://github.com/GameGen-X/GameGen-X
有关游戏AI还可以查看:AI实时玩游戏
AI视频人物表情突破【AI视频性能,易用性突破】
HelloMeme提出来一种新架构,可以实现对角色面部表情的控制(下面视频所展示的效果)。
这个突破是很重要的,AI视频目前还是那句话:画面静止美如画,一动起来像八嘎。如何实现剧烈画面的稳定性,是AI视频迫在眉睫的问题。
这个架构未来很可能会作为AI视频模型的一部分,来提升综合效果。
相关链接:
网站地址(需魔法才能完整显示视频):https://songkey.github.io/hellomeme/
如何简化AI文本转语音?!纯语言建模是值得尝试的答案!【AI配音性能突破】
官网摘要:文本转语音合成传统上依赖于复杂的架构和专门的模型。借助 OuteTTS(利用纯语言建模,无需外部适配器或复杂架构),我们证明了一个相对较小的语言模型可以通过一种简单而有效的方法学习生成高质量的语音。我们的模型只有 3.5 亿个参数,通过使用精心设计的提示和音频标记的直接方法,可以实现高质量的语音合成。这是很有潜力的模型。
缺点:目前只在短句表现好,这就是最大的问题。AI配音要想实现生产力的提升,就必须是长文本,而且是越长越好,否则是没有价值的。但这个模型很轻量,未来训练量堆上的话,会比现有模型要更便宜,表现更好,未来可期。
工具标签:AI配音;国外工具;英文;开源
相关链接:
项目地址(需魔法才能完整显示):https://www.outeai.com/blog/OuteTTS-0.1-350M
八观气象大模型发布!精度达1小时1公里,成功预测了多次极端天气!【行业AI性能突破】
阿里巴巴达摩院展示了其最新的气象预测技术——八观气象大模型。这一技术突破将全球气象模型与区域多源数据相结合,实现了“1公里1公里1小时”的精准预测,显著提高了对关键气象因素的预测能力。在新能源领域,尤其是在新型电力系统中,这一模型已经在国网山东电力调控中心得到应用,成功预测了极端天气事件,并将新能源发电功率和电力负荷预测的准确率提升至96%和98%以上。
在行业AI上,实际还有华为做的不错,不过国内感觉鲜有人知,可能是因为这样的模型是面向B端(企业,政府等)的吧。
FLUX超长文本生成图片!区域控制!无需训练!开源!【AI绘画易用性突破】
“在AI绘画领域,超长文本理解并生成图片是一直难以克服的关卡(顿”
“所以你这么说,是现在已经突破了吗?”
“那不是包的呀?!不光突破了,还是开源的!”
“我觉得不用多说了,看图就很容易理解!开源!拯救世界!”
相关链接:
项目地址(需魔法才能完整显示):https://github.com/instantX-research/Regional-Prompting-FLUX?tab=readme-ov-file
工具酱小短讯:不知不觉中,卧窗听雨声
微软推出Magnetic-One系统:提升多智能体协同工作效能
微软最近推出了Magnetic-One系统,这是一个创新的多智能体框架,致力于提高个人和企业在处理日常任务时的工作效率。该系统通过一个AI模型控制多个助手智能体,实现复杂任务的协同处理。尽管Magnetic-One系统在开发中使用了OpenAI的GPT-4o技术,但它并不依赖于大型语言模型,而是推荐使用高效的推理模型作为主导智能体。这一系统展现了微软在多智能体协同工作领域的技术实力和创新能力。
国内智能体:Coze
卡耐基梅隆大学与Meta合作推出VQAScore:革新文生图模型评测
在生成式AI领域,全面评估模型性能一直是个挑战。卡耐基梅隆大学和Meta合作推出了VQAScore评测方案,这一方案通过视觉问答模型来评分,其准确性超越了传统方法。VQAScore的引入,标志着在文生图模型评测方面迈出了重要的一步。此外,新评测基准GenAI-Bench的推出,进一步推动了文生图模型的发展,提供了更全面、更具挑战性的评测方案。尽管VQAScore存在一定的局限性,但随着VQA模型的不断进步,其性能有望得到进一步提升。
工具酱碎碎念:嘿,用这种方法测评,居然是DALL·E 3最强,Midjourney V6要逊色一些。AI评估目前确实是有非常大缺失的,测评方法就测试集这一种,我们当时为啥自己弄榜单,这个也是原因之一。
相关链接(需魔法才能完整显示):https://linzhiqiu.github.io/papers/vqascore/
中国团队发布“Infinity-MM”数据集及“Aquila-VL-2B”微型AI模型
中国的研究团队近期取得了显著成就,他们创建了“Infinity-MM”这一世界上最大的多模态数据集,并训练出了性能卓越的微型AI模型“Aquila-VL-2B”。Infinity-MM数据集包含4300万条样本,数据量达到了10TB。这一成果不仅展示了开源模型在AI研究中的潜力,特别是在合成训练数据的利用上,还表明了开源模型正在逐渐赶超传统的闭源系统。Aquila-VL-2B模型的成功训练,进一步证明了开源模型在多模态任务处理上的强大能力。
暂无评论内容