
Реальна Війна

Лёха в Short’ах Long’ует

Україна Сейчас | УС: новини, політика

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Анатолий Шарий

Реальний Київ | Украина

Реальна Війна

Лёха в Short’ах Long’ует

Україна Сейчас | УС: новини, політика

Мир сегодня с "Юрий Подоляка"

Труха⚡️Україна

Николаевский Ванёк

Лачен пише

Анатолий Шарий

Реальний Київ | Украина

Реальна Війна

Лёха в Short’ах Long’ует

Україна Сейчас | УС: новини, політика

Linux.do 热门话题
除了Linux,其他的我们都聊一点
https://linux.do
https://linux.do
TGlist रेटिंग
0
0
प्रकारसार्वजनिक
सत्यापन
असत्यापितविश्वसनीयता
अविश्वसनीयस्थान
भाषाअन्य
चैनल निर्माण की तिथिJan 31, 2024
TGlist में जोड़ा गया
Mar 08, 2025रिकॉर्ड
07.04.202523:59
995सदस्य12.02.202523:59
0उद्धरण सूचकांक09.03.202523:59
49प्रति पोस्ट औसत दृश्य01.04.202513:08
50प्रति विज्ञापन पोस्ट औसत दृश्य01.04.202513:08
2.27%ER09.03.202523:59
5.67%ERR31.03.202512:55
31.03.202510:33
未来 2-3 年内,所有闭源 AI 大模型提供商都会停止向外界提供 API 服务,而将转为直接提供模型本身作为产品。
偶然读到这篇研究文章,受益匪浅,对当下的Agents的理解、对模型及产品的趋势研判、以及模型供应商未来的服务路径等方面都做了深入浅出的调研和判断。
我认为值得一读,值得思考。以下仅摘取部分精华内容,建议阅读原文全文。万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow
未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。
下一代真正的 LLM 智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现的。 OpenAI 的 DeepResearch 和 Anthropic 的 Claude Sonnet 3.7,说明未来智能体会自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示或工作流驱动。这种转变意味着智能体设计的核心复杂性将转移到模型训练阶段,从根本上提升模型的自主推理能力,最终彻底颠覆目前的应用层生态。
模型即产品(The Model is the Product)
过去几年里,人们不断猜测下一轮 AI 的发展方向:会是智能体(Agents)?推理模型(Reasoners)?还是真正的多模态(Multimodality)?
但现在,是时候下结论了:
AI 模型本身,就是未来的产品。
目前,无论是研究还是市场的发展趋势,都在推动这个方向。
为什么这么说?
● 通用型模型的扩展,遇到了瓶颈。GPT-4.5 发布时传递的最大信息就是:模型的能力提升只能呈线性增长,但所需算力却在指数式地飙升。尽管过去两年 OpenAI 在训练和基础设施方面进行了大量优化,但仍然无法以可接受的成本推出这种超级巨型模型。
● 定向训练(Opinionated training)的效果,远超预期。强化学习与推理能力的结合,正在让模型迅速掌握具体任务。这种能力,既不同于传统的机器学习,也不是基础大模型,而是某种神奇的第三形态。比如一些极小规模的模型突然在数学能力上变得惊人强大;编程模型不再只是简单地产生代码,甚至能够自主管理整个代码库;又比如 Claude 在几乎没有专门训练、仅靠非常贫乏的信息环境下,竟然也能玩宝可梦。
● 推理(Inference)的成本,正在极速下降。DeepSeek 最新的优化成果显示,目前全球所有可用的 GPU 资源,甚至足以支撑地球上每个人每天调用一万个顶尖模型的 token。而实际上,目前市场根本不存在这么大的需求。简单卖 token 赚钱的模式已经不再成立,模型提供商必须向价值链更高层发展。
但这个趋势也带来了一些尴尬,因为所有投资人都将宝压在了「应用层」上。然而,在下一阶段的 AI 革命中,最先被自动化、被颠覆的,极有可能就是应用层。
下一代 AI 模型的形态
一个真正的智能体必须在内部独立完成任务:「智能体能够动态地决定自己的执行流程和工具使用方式,自主掌控任务的完成过程。」
但市面上大多数所谓的智能体公司,目前做的根本不是智能体,而是「工作流」(workflows):
也就是用预先定义好的代码路径,串联 LLM 与其他工具。这种工作流仍然有一定价值,尤其是在特定领域的垂直应用上。但对于真正从事前沿研究的人来说,很明显:未来真正的突破,必须是直接从模型层面入手,重新设计 AI 系统。
这一切对我们意味着什么?
意味着复杂性的转移。
通过训练阶段预先应对大量可能的行动和各种极端情况,部署时将变得异常简单。但在这个过程中,绝大部分价值都将被模型训练方创造,并且最终被模型训练方所捕获。
简单来说,Anthropic 想要颠覆并替代目前的那些所谓「智能体」工作流,比如像 llama index 的这种典型系统:
模型供应商与应用开发商
的蜜月期结束了
目前 AI 的大趋势已经明朗:
未来 2-3 年内,所有闭源 AI 大模型提供商都会停止向外界提供 API 服务,而将转为直接提供模型本身作为产品。
这种趋势并非猜测,而是现实中的多重信号都指向了这一点。Databricks 公司生成式 AI 副总裁 Naveen Rao 也做了清晰的预测:
市场方向可能的变化:
● Claude Code 和 DeepSearch都是这种趋势的早期技术与产品探索。你可能注意到,DeepSearch 并未提供 API 接口,仅作为 OpenAI 高级订阅的增值功能出现;Claude Code 则只是一个极为简单的终端整合。这清晰表明,模型厂商已开始跳过第三方应用层,直接创造用户价值。
● **应用层企业开始秘密地布局模型训练能力。**当前成功的应用型公司,也都意识到了这种威胁,悄悄尝试转型。例如 Cursor 拥有一款自主开发的小型代码补全模型;WindSurf 内部开发了 Codium 这样一款低成本的代码模型;Perplexity 此前一直依靠内部分类器进行请求路由,最近更是转型训练了自己的 DeepSeek 变体模型用于搜索用途。
● 当前成功的「应用套壳商」(Wrappers)实际上处于困境之中:他们要么自主训练模型,要么就等着被上游大模型彻底取代。他们现在所做的事情,本质上都是为上游大模型厂商进行免费的市场调研、数据设计和数据生成。
关于简单 LLM 智能体的「苦涩教训」
将语言模型与智能体化结合的最简单方法,就是通过预定义的提示(prompt)和规则来约束输出。目前绝大部分的语言模型智能体系统都是这种方式,然而这种做法注定会撞上 Richard Sutton 提出的「苦涩教训」(Bitter Lesson)。
人们经常误解「苦涩教训」,认为它是指导语言模型预训练的指南。但它本质上讲的是关于智能体的设计,讲的是我们往往想直接把人类的知识「硬编码」到智能体当中——例如「如果你碰壁了,就换个方向;如果多次碰壁,就回头再试试」。这种方法在短期来看效果很好,很快就能看到进步,不需要长时间训练。但长期来看,这种做法往往走向次优解,甚至会在意料之外的场景里卡住。
Sutton 这样总结道:
真正的智能体,
是不靠「提示词」工作的
简单来说,搜索过程将会被智能体直接「工程化」。智能体不需要额外的数据预处理,而是直接基于现有搜索基础设施去灵活应变,寻找最佳路径。同时,用户也无需专门训练就能与生成式 AI 高效交互。正如 Tim Berners-Lee 十多年前所强调的:「一个真正的智能体,就是在每个具体场景中,都能自动完成用户心里想做却没明确说出来的事情。」
2025 年会是智能体崛起的一年吗?或许还有机会,我们拭目以待。
原文:万字探讨Agent发展真方向
补充:关于提示词
原文对于提示词的观点是值得商榷的,今天刚好看到李继刚对于提示词的判断,我认为讲的非常好:
阅读完整话题
via LINUX DO - 热门话题 (author: CHEN)
偶然读到这篇研究文章,受益匪浅,对当下的Agents的理解、对模型及产品的趋势研判、以及模型供应商未来的服务路径等方面都做了深入浅出的调研和判断。
我认为值得一读,值得思考。以下仅摘取部分精华内容,建议阅读原文全文。万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow
未来 AI 智能体的发展方向还得是模型本身,而不是工作流(Work Flow)。像 Manus 这样基于「预先编排好的提示词与工具路径」构成的工作流智能体,短期或许表现不错,但长期必然遇到瓶颈。这种「提示驱动」的方式无法扩展,也无法真正处理那些需要长期规划、多步骤推理的复杂任务。
下一代真正的 LLM 智能体,则是通过「强化学习(RL)与推理(Reasoning)的结合」来实现的。 OpenAI 的 DeepResearch 和 Anthropic 的 Claude Sonnet 3.7,说明未来智能体会自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等,而不再依靠外部提示或工作流驱动。这种转变意味着智能体设计的核心复杂性将转移到模型训练阶段,从根本上提升模型的自主推理能力,最终彻底颠覆目前的应用层生态。
模型即产品(The Model is the Product)
过去几年里,人们不断猜测下一轮 AI 的发展方向:会是智能体(Agents)?推理模型(Reasoners)?还是真正的多模态(Multimodality)?
但现在,是时候下结论了:
AI 模型本身,就是未来的产品。
目前,无论是研究还是市场的发展趋势,都在推动这个方向。
为什么这么说?
● 通用型模型的扩展,遇到了瓶颈。GPT-4.5 发布时传递的最大信息就是:模型的能力提升只能呈线性增长,但所需算力却在指数式地飙升。尽管过去两年 OpenAI 在训练和基础设施方面进行了大量优化,但仍然无法以可接受的成本推出这种超级巨型模型。
● 定向训练(Opinionated training)的效果,远超预期。强化学习与推理能力的结合,正在让模型迅速掌握具体任务。这种能力,既不同于传统的机器学习,也不是基础大模型,而是某种神奇的第三形态。比如一些极小规模的模型突然在数学能力上变得惊人强大;编程模型不再只是简单地产生代码,甚至能够自主管理整个代码库;又比如 Claude 在几乎没有专门训练、仅靠非常贫乏的信息环境下,竟然也能玩宝可梦。
● 推理(Inference)的成本,正在极速下降。DeepSeek 最新的优化成果显示,目前全球所有可用的 GPU 资源,甚至足以支撑地球上每个人每天调用一万个顶尖模型的 token。而实际上,目前市场根本不存在这么大的需求。简单卖 token 赚钱的模式已经不再成立,模型提供商必须向价值链更高层发展。
但这个趋势也带来了一些尴尬,因为所有投资人都将宝压在了「应用层」上。然而,在下一阶段的 AI 革命中,最先被自动化、被颠覆的,极有可能就是应用层。
下一代 AI 模型的形态
一个真正的智能体必须在内部独立完成任务:「智能体能够动态地决定自己的执行流程和工具使用方式,自主掌控任务的完成过程。」
但市面上大多数所谓的智能体公司,目前做的根本不是智能体,而是「工作流」(workflows):
也就是用预先定义好的代码路径,串联 LLM 与其他工具。这种工作流仍然有一定价值,尤其是在特定领域的垂直应用上。但对于真正从事前沿研究的人来说,很明显:未来真正的突破,必须是直接从模型层面入手,重新设计 AI 系统。
这一切对我们意味着什么?
意味着复杂性的转移。
通过训练阶段预先应对大量可能的行动和各种极端情况,部署时将变得异常简单。但在这个过程中,绝大部分价值都将被模型训练方创造,并且最终被模型训练方所捕获。
简单来说,Anthropic 想要颠覆并替代目前的那些所谓「智能体」工作流,比如像 llama index 的这种典型系统:
模型供应商与应用开发商
的蜜月期结束了
目前 AI 的大趋势已经明朗:
未来 2-3 年内,所有闭源 AI 大模型提供商都会停止向外界提供 API 服务,而将转为直接提供模型本身作为产品。
这种趋势并非猜测,而是现实中的多重信号都指向了这一点。Databricks 公司生成式 AI 副总裁 Naveen Rao 也做了清晰的预测:
在未来两到三年内,所有闭源的 AI 模型提供商都会停止销售 API 服务。简单来说,API 经济即将走向终结。模型提供商与应用层(Wrapper)之间原本的蜜月期,已彻底结束了。
市场方向可能的变化:
● Claude Code 和 DeepSearch都是这种趋势的早期技术与产品探索。你可能注意到,DeepSearch 并未提供 API 接口,仅作为 OpenAI 高级订阅的增值功能出现;Claude Code 则只是一个极为简单的终端整合。这清晰表明,模型厂商已开始跳过第三方应用层,直接创造用户价值。
● **应用层企业开始秘密地布局模型训练能力。**当前成功的应用型公司,也都意识到了这种威胁,悄悄尝试转型。例如 Cursor 拥有一款自主开发的小型代码补全模型;WindSurf 内部开发了 Codium 这样一款低成本的代码模型;Perplexity 此前一直依靠内部分类器进行请求路由,最近更是转型训练了自己的 DeepSeek 变体模型用于搜索用途。
● 当前成功的「应用套壳商」(Wrappers)实际上处于困境之中:他们要么自主训练模型,要么就等着被上游大模型彻底取代。他们现在所做的事情,本质上都是为上游大模型厂商进行免费的市场调研、数据设计和数据生成。
关于简单 LLM 智能体的「苦涩教训」
将语言模型与智能体化结合的最简单方法,就是通过预定义的提示(prompt)和规则来约束输出。目前绝大部分的语言模型智能体系统都是这种方式,然而这种做法注定会撞上 Richard Sutton 提出的「苦涩教训」(Bitter Lesson)。
人们经常误解「苦涩教训」,认为它是指导语言模型预训练的指南。但它本质上讲的是关于智能体的设计,讲的是我们往往想直接把人类的知识「硬编码」到智能体当中——例如「如果你碰壁了,就换个方向;如果多次碰壁,就回头再试试」。这种方法在短期来看效果很好,很快就能看到进步,不需要长时间训练。但长期来看,这种做法往往走向次优解,甚至会在意料之外的场景里卡住。
Sutton 这样总结道:
「我们必须学会苦涩的教训:人为地去预设我们思考的方式,长期来看并不奏效。AI 研究的历史已经反复验证:
1)研究者经常试图将知识提前写入智能体;
2)这种做法短期内效果明显,也让研究者本人很有成就感;
3)但长期来看,性能很快达到上限,甚至阻碍后续发展;
4)最终的突破反而来自完全相反的方法,即通过大量计算资源进行搜索和学习。最终的成功让人有些苦涩,因为它否定了人们偏爱的、以人为中心的方法。」
真正的智能体,
是不靠「提示词」工作的
简单来说,搜索过程将会被智能体直接「工程化」。智能体不需要额外的数据预处理,而是直接基于现有搜索基础设施去灵活应变,寻找最佳路径。同时,用户也无需专门训练就能与生成式 AI 高效交互。正如 Tim Berners-Lee 十多年前所强调的:「一个真正的智能体,就是在每个具体场景中,都能自动完成用户心里想做却没明确说出来的事情。」
2025 年会是智能体崛起的一年吗?或许还有机会,我们拭目以待。
原文:万字探讨Agent发展真方向
补充:关于提示词
原文对于提示词的观点是值得商榷的,今天刚好看到李继刚对于提示词的判断,我认为讲的非常好:
李继刚一句话点醒了我:提示词的本质,在于你的「输入」会影响你的「输出」。23 个帖子 - 19 位参与者
无论 AI 进化到何种形态,只要我们还需要向它输入信息(指令、问题、素材等)来获取期望的回应,那么这种“输入”的技巧,也就是广义上的“提示词”就永远有其价值。
区别可能在于,随着 AI 能力的指数级提升(智商、情商、理解力等),我们或许不再需要像现在这样,有时写出长篇大论的提示词。
输入可能会变得更精炼,但其重要性丝毫不会减弱。
阅读完整话题
via LINUX DO - 热门话题 (author: CHEN)
31.03.202512:55
分享一个隔绝噪音和治疗失眠的方法
我在Reddit的恐音症板块看到有人分享用布朗噪音助眠。布朗噪音类似白噪音和粉噪音,但刺耳的高频分量更少,听起来像是雷阵雨的雷鸣声。
我在睡觉时播放,听了一周,效果非常好。主要是听布朗噪音可以防止我胡思乱想。入睡效率明显提高,半夜醒来也不会长时间失眠。而且有效隔绝邻居的噪音,吵架声/脚步声/鸟叫声/雨棚滴水声/喇叭声基本上都听不到了。
我睡觉时同时戴3m 1100耳塞,所以音量还可以调的更高,隔绝噪音效果更好。
我是通过Audacity生成布朗噪音网盘:Audacity → Generate → Noise → Noise Type “Brownian”。我生成了10小时的噪音,通过手机上Salt Player播放。蓝牙音箱放在距离头顶30cm左右位置,喇叭高度和耳朵在同一水平线上。
需要注意:布朗噪音助眠可能会使做梦的情况增加,特别是噩梦。neurofit.app
棕色噪音如何改善您的睡眠 | NEUROFIT
棕色噪音是一种低沉的嗡鸣声,可以通过掩盖干扰性声音来提升睡眠质量和专注力。 -- Andrew Hogue, Co-CEO, NEUROFIT, Feb 23, 2025.
BBC News 中文 – 24 Oct 22
布朗噪音(“棕色噪音”)和白噪音有何却别?为什么可能帮助多动症者? - BBC News 中文
布朗噪音又被称为棕色噪音(Brown noise),是一种类似于大雨或瀑布的低频声音,最近在TikTok上成为热门话题。它到底是什么,如何帮助听众?
32 个帖子 - 23 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 李成蹊)
我在Reddit的恐音症板块看到有人分享用布朗噪音助眠。布朗噪音类似白噪音和粉噪音,但刺耳的高频分量更少,听起来像是雷阵雨的雷鸣声。
我在睡觉时播放,听了一周,效果非常好。主要是听布朗噪音可以防止我胡思乱想。入睡效率明显提高,半夜醒来也不会长时间失眠。而且有效隔绝邻居的噪音,吵架声/脚步声/鸟叫声/雨棚滴水声/喇叭声基本上都听不到了。
我睡觉时同时戴3m 1100耳塞,所以音量还可以调的更高,隔绝噪音效果更好。
我是通过Audacity生成布朗噪音网盘:Audacity → Generate → Noise → Noise Type “Brownian”。我生成了10小时的噪音,通过手机上Salt Player播放。蓝牙音箱放在距离头顶30cm左右位置,喇叭高度和耳朵在同一水平线上。
需要注意:布朗噪音助眠可能会使做梦的情况增加,特别是噩梦。neurofit.app
棕色噪音如何改善您的睡眠 | NEUROFIT
棕色噪音是一种低沉的嗡鸣声,可以通过掩盖干扰性声音来提升睡眠质量和专注力。 -- Andrew Hogue, Co-CEO, NEUROFIT, Feb 23, 2025.
BBC News 中文 – 24 Oct 22
布朗噪音(“棕色噪音”)和白噪音有何却别?为什么可能帮助多动症者? - BBC News 中文
布朗噪音又被称为棕色噪音(Brown noise),是一种类似于大雨或瀑布的低频声音,最近在TikTok上成为热门话题。它到底是什么,如何帮助听众?
32 个帖子 - 23 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 李成蹊)


31.03.202513:58
进销存系统 已开源,朋友们请随意取用
求star!!!!!
书接上回:
进销存系统踩坑开发调优
搞了一个进销存系统,肯定有bug,反正先发出来慢慢搞呗,伸出你发财的小手点个star,感谢!github.com
GitHub - zhtyyx/ioe: One-Stop Retail Inventory Solution
One-Stop Retail Inventory Solution
24 个帖子 - 19 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 尼可勒梅)
求star!!!!!
书接上回:
进销存系统踩坑开发调优
这两天在写一个进销存系统,是给老丈人、丈母娘的服装店写的。 和cursor、trae一起写,我本身会全栈开发,买了一个扫码枪,django前后端不分离的架构,以快为主。2小时左右就搭的差不多了,感叹以往写代码跟黑奴一样,现在终于可以挥着皮鞭打ai了 中途有几个小坑吧,其中一个是扫码枪扫一维码的时候,居然不是我想象的条码里包含了产品信息,而是要对接条码解析平台,倒是不贵,2分钱一个request…
搞了一个进销存系统,肯定有bug,反正先发出来慢慢搞呗,伸出你发财的小手点个star,感谢!github.com
GitHub - zhtyyx/ioe: One-Stop Retail Inventory Solution
One-Stop Retail Inventory Solution
24 个帖子 - 19 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 尼可勒梅)
31.03.202511:26
个人使用 Cursor 一些调优和经验
via LINUX DO - 热门话题 (author: 时也不时适也不适)
via LINUX DO - 热门话题 (author: 时也不时适也不适)
01.04.202500:40
找工作经验分享(社招1-3年经验 中小厂 Java/全栈 开发)
via LINUX DO - 热门话题 (author: 爱写代码的牛顿)
via LINUX DO - 热门话题 (author: 爱写代码的牛顿)
31.03.202512:55
人在境外,有没有什么推荐注册或者办理的业务
如题,人暂时在境外,有没有什么在国内不方便注册或者办理的业务,推荐在国外办理的。比如注册某某平台账号,办理手机卡等。或者有没有一些其他生活方面的建议和技巧,比如打车、住宿等
14 个帖子 - 10 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: SMALLSTONE)
如题,人暂时在境外,有没有什么在国内不方便注册或者办理的业务,推荐在国外办理的。比如注册某某平台账号,办理手机卡等。或者有没有一些其他生活方面的建议和技巧,比如打车、住宿等
14 个帖子 - 10 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: SMALLSTONE)
31.03.202520:00
需要claude3.7 sonnet的购买方式
第一次尝试cherry studio来帮助我根据一些文件进行编程,发现3.7的效果实在比我以前用过的好用很多,但是看官网买容易被封,希望各位佬给点网站
10 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Z1p)
第一次尝试cherry studio来帮助我根据一些文件进行编程,发现3.7的效果实在比我以前用过的好用很多,但是看官网买容易被封,希望各位佬给点网站
10 个帖子 - 4 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Z1p)
31.03.202504:49
AnyTXT - 恐成C盘杀手
之前看到个桌面必备软件系列,下载了个 AnyTXT,说的是相较于 Everything,他不仅能直接搜索文件,还能在软件内直接预览文件内容。软件本身也不大,索性安装试了试,效果还不错,不过应用场景不多,很快就吃灰了。
结果今天扫描C盘中的特大文件,AnyTXT 的文件夹赫然在列,打开一看占用了几个 GB 的空间。我寻思这软件我安装后基本上从来没用过,怎么占用这么大?搜索后才明白,由于电脑上有很多 txt 文件(书籍、字幕之类的吧),AnyTXT 直接在data 文件夹中生成了「英文字母.ati」文件。后续我直接把这玩意卸载了,C盘瞬间释放了几 GB 的空间。
22 个帖子 - 18 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 魔力鸽)
之前看到个桌面必备软件系列,下载了个 AnyTXT,说的是相较于 Everything,他不仅能直接搜索文件,还能在软件内直接预览文件内容。软件本身也不大,索性安装试了试,效果还不错,不过应用场景不多,很快就吃灰了。
结果今天扫描C盘中的特大文件,AnyTXT 的文件夹赫然在列,打开一看占用了几个 GB 的空间。我寻思这软件我安装后基本上从来没用过,怎么占用这么大?搜索后才明白,由于电脑上有很多 txt 文件(书籍、字幕之类的吧),AnyTXT 直接在data 文件夹中生成了「英文字母.ati」文件。后续我直接把这玩意卸载了,C盘瞬间释放了几 GB 的空间。
22 个帖子 - 18 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: 魔力鸽)


31.03.202505:47
250331 三花AI日报:ChatGPT 推出精准图片编辑功能;生数科技国产视频生成模型 Vidu Q1
ChatGPT 推出精准图片编辑功能
OpenAI 为 ChatGPT 的图像生成功能新增了局部编辑能力。现在,用户可以直接在 AI 生成的图片上使用遮罩工具进行精准编辑,支持添加新元素、移除不需要的部分,或是替换特定区域的内容,都能轻松实现。
目前该功能处于灰度测试阶段,仅对部分 Web 端用户开放,佬们可以看看有没有灰度到。
生数科技国产视频生成模型 Vidu Q1
iframe (player.bilibili.com)
生数科技在中关村论坛正式发布国产视频生成模型 Vidu Q1。该模型在多主体细节控制(特别是动作和布局)、音效同步、画质增强等能力上均有提升。
目前官方只发布了预告片和一篇公众号文章,暂无更多信息。
14 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: kejun)
今天没啥内容
ChatGPT 推出精准图片编辑功能
OpenAI 为 ChatGPT 的图像生成功能新增了局部编辑能力。现在,用户可以直接在 AI 生成的图片上使用遮罩工具进行精准编辑,支持添加新元素、移除不需要的部分,或是替换特定区域的内容,都能轻松实现。
目前该功能处于灰度测试阶段,仅对部分 Web 端用户开放,佬们可以看看有没有灰度到。
生数科技国产视频生成模型 Vidu Q1
iframe (player.bilibili.com)
生数科技在中关村论坛正式发布国产视频生成模型 Vidu Q1。该模型在多主体细节控制(特别是动作和布局)、音效同步、画质增强等能力上均有提升。
目前官方只发布了预告片和一篇公众号文章,暂无更多信息。
14 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: kejun)


31.03.202504:49
目前测试可用的Cursor Pro 自动化工具
自动注册账号,自动刷新本地token,解放双手。
重要前提
必须使用 Cloudflare 域名邮箱!请先完成以下步骤:
1. 将你的域名托管到 Cloudflare
2. 在 Cloudflare 中配置域名邮箱
3. 设置邮件路由规则
作者仓库地址:GitHub - chengazhen/cursor-auto-free: auto sign cursor
个人M4 cursor0.46.0测试可用。 求赞求赞,马上升级。 😀
14 个帖子 - 11 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: mappedbyte)
自动注册账号,自动刷新本地token,解放双手。
重要前提
必须使用 Cloudflare 域名邮箱!请先完成以下步骤:
1. 将你的域名托管到 Cloudflare
2. 在 Cloudflare 中配置域名邮箱
3. 设置邮件路由规则
作者仓库地址:GitHub - chengazhen/cursor-auto-free: auto sign cursor
个人M4 cursor0.46.0测试可用。 求赞求赞,马上升级。 😀
14 个帖子 - 11 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: mappedbyte)
31.03.202504:49
谷歌Gemini音视频实测,以后再也不需要字幕组了?
图太多了,建议前往原文地址 duke486.com ,阅读效果图。
谷歌最新发布的 Gemini 2.5 Pro 模型在音视频识别能力上带来了震撼表现,我对其进行了详细实测。这款模型号称拥有百万上下文,音视频理解能力尤其值得关注。本次测试旨在评估 Gemini 2.5 Pro 在处理音视频内容时的各项能力。
主要测试案例:
1. 《你想活出怎样的人生》插曲: 要求AI输出画面内容、剧情、中日文字幕和音效。结果完美,各项要素均准确识别。
2. 《你的名字》英文版片头曲: 要求输出画面内容、英文字幕、中文字幕和音效。表现优秀,仅英语歌词有少量小有少量小错误,但能理解剧情并补充相关信息。
3. 初音未来《Miku》短视频: 要求输出画面内容和中日歌词。快速切换镜头时有少量遗漏,歌词和音乐节奏识乐节奏识别精准。
4. 《New Game》第一集(仅音频): 重点测试! 只提供音频和作品名,要求输出中日字幕、日字幕、音效、推断说话人、OP/ED歌词。结果令人惊艳,角色名推断准确,OP/ED日英混合歌词识别出色,甚至能识别角色内心独白。
结论就是
Gemini 2.5 Pro 在音视频识别方面表现突出,尤其在复杂场景和多语言环境下依然能保持高水准。尽管中文歌曲识别尚有提升空间,但整体而言,其音视频处理能力已非常强大,预示着 AI 自动加字幕等应用场景的巨大潜力。
20 个帖子 - 16 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Duke486)
图太多了,建议前往原文地址 duke486.com ,阅读效果图。
谷歌最新发布的 Gemini 2.5 Pro 模型在音视频识别能力上带来了震撼表现,我对其进行了详细实测。这款模型号称拥有百万上下文,音视频理解能力尤其值得关注。本次测试旨在评估 Gemini 2.5 Pro 在处理音视频内容时的各项能力。
主要测试案例:
1. 《你想活出怎样的人生》插曲: 要求AI输出画面内容、剧情、中日文字幕和音效。结果完美,各项要素均准确识别。
2. 《你的名字》英文版片头曲: 要求输出画面内容、英文字幕、中文字幕和音效。表现优秀,仅英语歌词有少量小有少量小错误,但能理解剧情并补充相关信息。
3. 初音未来《Miku》短视频: 要求输出画面内容和中日歌词。快速切换镜头时有少量遗漏,歌词和音乐节奏识乐节奏识别精准。
4. 《New Game》第一集(仅音频): 重点测试! 只提供音频和作品名,要求输出中日字幕、日字幕、音效、推断说话人、OP/ED歌词。结果令人惊艳,角色名推断准确,OP/ED日英混合歌词识别出色,甚至能识别角色内心独白。
结论就是
Gemini 2.5 Pro 在音视频识别方面表现突出,尤其在复杂场景和多语言环境下依然能保持高水准。尽管中文歌曲识别尚有提升空间,但整体而言,其音视频处理能力已非常强大,预示着 AI 自动加字幕等应用场景的巨大潜力。
20 个帖子 - 16 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: Duke486)


31.03.202503:10
【最后一天】genspark薅羊毛自动化脚本(内附家宽订阅)
这个帖子只介绍自动化脚本的细节,原理和细节以及接码网站请看我的这个帖子【图文教程】如何自己一个人薅genspark20个月会员
话不多说,直接上脚本的演示视频
脚本主要完成的功能是自动登录outlook邮箱,然后跳转到genspark接码页面。省去了邀人过程中最繁琐的步骤。
本程序需要电脑安装有python 和 edge。下载下图中的文件到一个文件夹内,安装好python环境即可运行
程序地址在这
由于现在解码需要很好的网络环境,因此附上本人购买的一条有家宽订阅。
建议用湾湾的1.5x节点,湾湾的全是家宽,并且非常干净
希望这两天大家不用将订阅用于其他用途,订阅刚买的,还有一个月有效期。等genspark活动结束就可以随便用了。不过只有100G流量。
家宽订阅在这(被刷完了,需要家宽的自己楼里面翻翻吧,有地址,也就5元一个月)
Ps:
程序有些小bug,有时候会有部分账号无法跳转到最终的页面,但是outlook已经登录成功。这时候需要在新窗口手动复制一下邀请链接到邀请页面。
手机号出现内部错误一般刷新一次就好。如果刷新一次不行,可暂时跳过这个账号。等一会换个手机号就行。一个手机号可邀请五个
如果一个手机号30秒后仍接不到码,直接取消这个手机号,换新手机号
91 个帖子 - 44 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: marton)
这个帖子只介绍自动化脚本的细节,原理和细节以及接码网站请看我的这个帖子【图文教程】如何自己一个人薅genspark20个月会员
话不多说,直接上脚本的演示视频
脚本主要完成的功能是自动登录outlook邮箱,然后跳转到genspark接码页面。省去了邀人过程中最繁琐的步骤。
本程序需要电脑安装有python 和 edge。下载下图中的文件到一个文件夹内,安装好python环境即可运行
程序地址在这
由于现在解码需要很好的网络环境,因此附上本人购买的一条有家宽订阅。
建议用湾湾的1.5x节点,湾湾的全是家宽,并且非常干净
希望这两天大家不用将订阅用于其他用途,订阅刚买的,还有一个月有效期。等genspark活动结束就可以随便用了。不过只有100G流量。
家宽订阅在这(被刷完了,需要家宽的自己楼里面翻翻吧,有地址,也就5元一个月)
https://hn1r5k7322.bitmusttw.com/s/90440b5df8c592c802ec763b66e89322
Ps:
程序有些小bug,有时候会有部分账号无法跳转到最终的页面,但是outlook已经登录成功。这时候需要在新窗口手动复制一下邀请链接到邀请页面。
手机号出现内部错误一般刷新一次就好。如果刷新一次不行,可暂时跳过这个账号。等一会换个手机号就行。一个手机号可邀请五个
如果一个手机号30秒后仍接不到码,直接取消这个手机号,换新手机号
91 个帖子 - 44 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: marton)
07.04.202504:52
大家听说过心盲症吗,我无法在脑海想象任何东西。
我没法在脑海里想象任何东西,连亲人的相貌,甚至一个苹果都没法想象,我就是拿着苹果看着,然后闭上眼睛去想象,脑海也是一片空白。
121 个帖子 - 68 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: xiam)
我没法在脑海里想象任何东西,连亲人的相貌,甚至一个苹果都没法想象,我就是拿着苹果看着,然后闭上眼睛去想象,脑海也是一片空白。
121 个帖子 - 68 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: xiam)
06.04.202506:20
llama4发布,疑似竞技场和实际发布模型差距过大,货不对板?
请看以上两张图片,同样的提示词,同样的模型,竞技场的文风很好,但是放到or里面的这个模型就是天差地别。(还有天气卡测试题,or的天气卡完全是一团混乱不成样子,而竞技场的虽然算不上太好,但是起码正常表述了天气,请看图片)
而根据meta官方所发布的博客中写到
llama4拥有和deepseekv3一样强劲的代码能力。
可是deepseekv3的天气卡相比大家都看过了,不用我再重述了。
再补一句,reddit上有人测试竞技场的知识量和or发布的知识量似乎是不相同的,很多竞技场的是知道的,但是放到or渠道就不知道了(我没有实测,在此放上贴图,如果有老哥实测欢迎贴出来)
所以meta藏了一手?(或者说开源大模型的都要藏一手,可是这两个模型差距大到让我怀疑meta官方发错了代码,这发布了个什么玩意。)
----------------------
补充推特最新代码测试,官方博客说类似于deepseekv3(新)水平,这个测试指出大概相当于qwq32b的水平。
https://x.com/karminski3/status/1908726414960103818github.com
GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
LLM Arena by KCORES team
30 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: shijinhui)
请看以上两张图片,同样的提示词,同样的模型,竞技场的文风很好,但是放到or里面的这个模型就是天差地别。(还有天气卡测试题,or的天气卡完全是一团混乱不成样子,而竞技场的虽然算不上太好,但是起码正常表述了天气,请看图片)
而根据meta官方所发布的博客中写到
llama4拥有和deepseekv3一样强劲的代码能力。
可是deepseekv3的天气卡相比大家都看过了,不用我再重述了。
再补一句,reddit上有人测试竞技场的知识量和or发布的知识量似乎是不相同的,很多竞技场的是知道的,但是放到or渠道就不知道了(我没有实测,在此放上贴图,如果有老哥实测欢迎贴出来)
所以meta藏了一手?(或者说开源大模型的都要藏一手,可是这两个模型差距大到让我怀疑meta官方发错了代码,这发布了个什么玩意。)
----------------------
补充推特最新代码测试,官方博客说类似于deepseekv3(新)水平,这个测试指出大概相当于qwq32b的水平。
https://x.com/karminski3/status/1908726414960103818github.com
GitHub - KCORES/kcores-llm-arena: LLM Arena by KCORES team
LLM Arena by KCORES team
30 个帖子 - 14 位参与者
阅读完整话题
via LINUX DO - 热门话题 (author: shijinhui)
चैनल परिवर्तन इतिहास
अधिक कार्यक्षमता अनलॉक करने के लिए लॉगिन करें।