Journal of Carlos Gong


20260117: Vibe-Coding & AI-Native Hardwares

1. 俳句时钟

两年前的大概这个时候,我在第 N 次重新学习前端代码,当时是为了尝试调用最早期的一些 AI 模型,来尝试一些奇怪的东西。大部分是和我当时的工作相关,有个跟工作不相关、可以发出来的,是一个 每分钟自动刷新一首俳句 的小废物。

当时,为了做出来这样一个非常简单的东西,你也还是得认认真真地找一个教程,尽量根据目录(而不是急功近利地跳着看)去 follow 它,手敲各种示例代码,理解所有的基本概念,最后运用这些概念,把新东西做出来。在这个过程中,AI 的作用主要是在 chatbot 里提问题,然后看它回答的示例代码(其实也错误不少),来学习理解新的概念、或者 debug 已经手写出来的问题代码。

然后如果你有一段时间没有使用,这些学会的东西就会被忘掉。这是为什么我每隔不固定的时间就会需要重新学一遍基础编程知识、或者基础 Blender 操作这些东西。

两年过去了,事情发生了很大的变化。在今天,藉由 Cursor 和 Claude Code 的流行,任何一个思维水平正常、能够用自然语言说清楚需求的普通人,都可以在不事先投入 10+ 小时学习(或者再次学习、第 N 次学习…)基本编程概念的情况下,写出一些不那么复杂的小工具。

如果在 2 年后的今天要重新做一个类似这样的俳句时钟,大概只需要 15 分钟(或者更少一些),并且你完全不需要去再次复习 javascript 基础知识,只需要有一个大概的印象「这是怎么回事儿」就好了。

2. AI-Native Builders

在今天,每个人都可以随时运用自然语言写一个小工具。这是一件非常好的事儿,但是最近我也会经常看到一些奇怪的言论,有的现役程序员(目测数量还不少)认为这不是一件好事儿,比如说:

这种非常神奇的想法,让我想起很久以前,在 AI 刚能勉强生成(人手以外的、不含文字的)图片、大家都在 MidJourney 和 ComfyUI 开盲盒的时候,我还在 twitter 上见过几个画师说人不应该随便用 AI 模型生成一张具备特定视觉风格的图片——然后,GPT-4o Ghibli Moment 就来了。

再往前一些,当抖音和快手让每个人都能在手机上拍出一段视频、甚至是开始一段直播,并且发到公开网络上的时候,我也在 twitter 上见过一些专业影人说普通人不应该很快地拍摄一段视频发出来,因为它们没有思考和灵魂,只是生产了一大堆垃圾 footage 数据。

不是所有的程序写出来都是为了给全人类使用,就像不是所有的抖音短视频拍出来都是为了给一大群人放映。

在人类历史上,我们已经有过:每个人都能阅读一段圣经的 moment、每个人都能分发文字作品(手抄本)的 moment、每个人都能拍下和分享照片的 moment、每个人都能拍一段视频或者开始一段直播的 moment、每个人都能用自然语言生成图片给自己使用的 moment……

我不觉得即将到来的「每个人都能 vibe-direct 一段影片」和「每个人都能 vibe-code 一个小工具」的 moment 和之前已经发生过的那些 moments 有任何区别。

解放创造力,just vibe it out,可能完全没啥用看一眼就扔了、可能只对自己有用、可能对 20 个其它人有用、可能可以卖给 1000 个陌生人、也可能更大范围地 go viral,这不重要。

我不喜欢 被 web3 从业人员称为 web2 XXXX,但是他们的这个做法确实给了我一些奇怪的启发:既然现在即使是最傲慢的现役程序员也不是完全古法编程了,我们已经不能用「古法程序员」和「vibe-coder」来做这个区分,那么我们至少可以这样:

3. AI-Native Hardwares

「AI-Native Builders」这个说法过于有趣,以至于它让我想到了一些别的东西:

两年前,我在 对 Rabbit R1 的看法 的文章里,把当时的第一批主打 AI 卖点的消费电子产品称为「initial AI hardwares」。

两年过去了,我觉得现在我们应该区分两种对于消费电子类「AI 硬件」的不同定义,即:

说一个消费电子产品是「AI-driven」硬件,意味着尽管它的核心功能是由 AI 驱动的,但是它具备哪些功能、应该被用在什么场景、在品类划分层面上叫什么名字…… 都还是被产品经理们预先定义的,这背后可能是大量的传统时代的硬件产品规划工作——场景选择、市场潜力估算、用户调研、功能设计…… 最后主动选择一个很窄的细分领域去切入、并且在整套 GTM 过程中呈现出明确的市场定位。

如果一个消费电子产品是「AI-Native」硬件,则意味着它很可能并不是被预先定义好的、面向细分市场和明确细分用户群体的产品——它的主要功能,是由 LLM 本身的能力去决定的,没有严格的「这个东西应该怎么用」的限制。产品团队当然可以针对一些他们预期可能会有的 core use cases 做工程化的针对性优化工作(并在上市以后根据用户反馈持续地去做这样的工作),但是本质上,它仍然是一个不设限的产品

举个有点儿过于简化的例子:想象一个小玩具,它有扬声器和麦克风、有一个 eSIM 联网上下行的能力。那么,如果它是一个 AI-Native 硬件,它就不太应该把自己定位成一个「益智玩具」,而是从一开始就允许各种人拿它去做各种事,用户只需要提供一段或简短(比如直接语音)或复杂(比如有个 app 可以反复斟酌和大段输入)的 prompt:


返回首页