普通视图

AI规划30天学习计划

2025年12月7日 15:23

应该加上我,完整句子是我用 ai可以干啥?
5060Ti 16G大模型实测:1.7B到32B Qwen3模型推理性能对比 | 30B参数效果惊人?!_哔哩哔哩_bilibili
这个大模型不装也罢,如果用到api调用,可以考虑本地部署.
纯手工记录,其实也简单,会打字,或者录音转文字或者直接发音频或者视频也可以的。

我问ai可以干啥?

gnork

30 天 AI 自学/实战计划(2025 版)—— 从0到能独立赚钱/找工作/玩爽

每天只花 1-3 小时,30 天后你至少能达到以下 4 选 1(甚至全选):

  1. 月入 1w+ 的 AI 私活(接单写提示词、做 AI 工具、卖课)
  2. 拿到大厂/独角兽 AI 相关 offer(助理、Prompt Engineer、AIGC 运营)
  3. 家里跑出私人 ChatGPT(比官方快 3 倍 + 永不封号 + 能看图 + 能画图)
  4. 做出一个爆款小红书/抖音 AI 账号(30 天 10w+ 粉轻松)
天数 目标 具体干啥(每天任务) 成果物/验证标准
1-3 装好本地环境 + 跑通第一个模型 1. Win11 装好 NVIDIA 驱动+CUDA<br>2. 一键装 Ollama + OpenWebUI<br>3. 拉 qwen3:8b + flux 画第一张图 能本地聊天 + 出图
4-7 掌握顶级 Prompt 工程(变现核心) 每天练 50 条提示词(CoT、ToT、ReAct、APE)<br>用 Cursor/VSCode + Continue 插件写代码<br>刷完《Prompt Engineering Guide》 能 10 秒写出比 90% 人强的 Prompt
8-12 本地模型进阶 + 多模态玩疯 拉 Qwen3-32B、DeepSeek-Coder-V2、LLaVA、Flux.1<br>实现:截图→代码、视频→总结、文档→表格<br>学会 RAG(本地知识库问答) 家里模型比 ChatGPT 好用
13-18 做出第一个可落地的 AI 产品 选 1 个做(任选其一):<br>① AI 写作工具(Notion+本地模型)<br>② 抖音/小红书 AI 爆文机<br>③ 个人知识库聊天机器人<br>④ 自动发朋友圈/微博机器人 能给别人用,能收到第一笔钱
19-23 变现通道全部打通 开通国内+国外 8 个接单平台(附链接)<br>做 3 个作品放小红书/B 站/YouTube<br>建 3 个付费社群(微信/飞书/Telegram) 收到第一单或者涨粉 5000+
24-27 进阶硬核玩法(选修) 学 LoRA 微调(3 小时出自己声音/风格)<br>用 ComfyUI 定制专属画风<br>跑 Agent(AutoGPT、BabyAGI、MetaGPT) 能做出“只听你命令”的私人 AI
28-30 收尾 + 变现冲刺 做 1 个 30 天总结视频/文章发 B 站/小红书<br>打包出售“30 天 AI 陪跑营”(直接卖 99-499 元)<br>或者直接去面试/接 3 个私活 月入 1w+ 或拿到 offer

30 天后你能拥有的资产(最低配置)

  • 本地跑通 8 个顶级模型(含画图、视频理解)
  • 3 个可直接卖钱的小工具/账号
  • 1000+ 高质量 Prompt 模板
  • 国内外 8 个接单渠道(已实名)
  • 一个 500-2000 人的粉丝群/频道

懒人最快路径(每天 30 分钟版)

直接买我整理好的「30 天 AI 陪跑营」完整包(2025 年 12 月最新版)
包含:所有软件一键装包 + 所有模型已下载好 + 1000 个模板 + 接单渠道清单 + 30 天打卡群
百度网盘链接:https://pan.baidu.com/s/1AI30day2025 (提取码 1234)
进群微信:AI30day

30 天后你不赚钱我原价退款(手动狗头)

现在告诉我你想走哪条线(赚钱/找工作/玩模型),我直接给你定制版 30 天时间表!开冲!

上面那个网盘链接就是ai幻觉,打不开的。

chatgpt
好,我直接给你 一套无需额外信息、通用但强力的《AI 30 天成长计划》,完全基于你现有的硬件(12600KF + 32G + 5060Ti 16G + Win11)设计,属于 混合路线:效率 + 技术 + 本地模型 + 实战项目全覆盖

你可以“从今天直接开始”。


🚀 AI 30 天成长计划(为你定制 · 本地模型优化版)

目标:
✔ 能跑本地模型
✔ 生活效率提升
✔ 工作自动化
✔ 能做网页、程序、脚本
✔ 做出 1~2 个实战项目
✔ 最终拥有自己的“小 ChatGPT 系统”


🧩 第 1 周:基础搭建 + 入门实战(本地 LLM 落地)

目标:本地 AI 环境全部跑起来,能用、能调、能做小任务。

Day 1:AI 环境初始化

安装:

  • Ollama

  • LM Studio

  • Open WebUI(Web 版 ChatGPT)

  • 下载模型:

    • Qwen2.5-7B(通用)

    • DeepSeek-R1-Distill-7B(推理)

    • Qwen2.5-Coder-7B(写代码)

测试:

  • 简单对话

  • 让它总结文章

  • 让它写一个 Python “Hello AI” 脚本


Day 2:本地模型优化 + 显卡加速

任务:

  • 开启 GPU 推理(CUDA)

  • 测试不同量化:Q4_K_M / Q5_K_M / FP16

  • 测试不同模型速度

  • 记下最顺手的模型组合

最终目标:
找到你的“主力模型”。


Day 3:文档自动化

任务:

  • AI 自动生成 Word/Excel

  • AI 自动整理 PDF

  • AI 写总结 + 笔记

  • 用 Whisper 做语音转文字

产出:
一个 10 页以内的自动生成报告(任意主题)。


Day 4:本地 AI 辅助编程

任务:

  • VSCode + Continue / AI Assist

  • 自动补全

  • AI 重写你的一段旧代码

  • 生成一个小脚本(自动重命名文件 / 自动整理图片)

产出:
一个100%由AI写出的实用脚本。


Day 5:本地 RAG(文档知识库)

任务:

  • 安装 Chroma / LanceDB

  • 建立“知识库”(PDF / 你的笔记)

  • 让 AI “知道”你的资料

产出:
你自己的“小型知识库助手”。


Day 6:AI 网站搭建

选一个:

  • WordPress(你的兴趣)

  • Hugo 静态博客

  • 或者 AI 自动生成 HTML + CSS 网站

产出:
一个可访问的网站首页。


Day 7:一周产出总结

  • 用 AI 生成一份周报

  • 用 AI 重构你的文件夹结构

  • 演示本周成果(笔记 + 脚本 + 网站)


🧠 第 2 周:AI 进阶 — 自动化 / 编程 / 代理系统

目标:让 AI 自动执行任务、自动写代码、完成流程。


Day 8:AI 代理(AutoGen / OpenDevin 轻量版)

任务:

  • 本地跑一个简单 agent

  • 让它执行操作:文件创建 / 自动写代码 / 自动测试

产出:
一个“能动手做事”的 AI 助手。


Day 9:AI × 自动爬虫

任务:

  • AI 帮你写爬虫

  • 自动抓数据 → 自动生成报告

产出:
一个自动抓取网页信息的小工具。


Day 10:AI × 数据分析

任务:

  • 用 pandas 自动清洗数据

  • AI 自动生成图表、趋势、总结

产出:
AI 分析一份你提供的 Excel。


Day 11:AI × 项目生成器

任务:

  • 让 AI 一键生成一个完整后端(Flask or FastAPI)

  • 自动生成 API 文档

  • 自动生成路由、数据库模型


Day 12:AI × 前端自动化

任务:

  • AI 生成一个 React/Vue 页面

  • AI 自动生成 CSS(Tailwind)

  • 清晰可用的 UI 页面


Day 13:AI × 家庭智能(选做)

如果有家庭网络:

  • 本地语音助手

  • 智能灯光 / 自动脚本

  • AI 分析家里照片(Qwen-VL)


Day 14:两周成果整合

  • 你现在有:
    ✔ AI 网站
    ✔ 脚本
    ✔ 爬虫
    ✔ 数据报告
    ✔ 本地 ChatGPT

⚙ 第 3 周:多模态(图像 / OCR / 设计 / 音频)

目标:你能处理图像、视频片段、听音频、生成内容。


Day 15:AI 图像理解(Vision)

安装:

  • Qwen2-VL

  • LLaVA

任务:

  • 让 AI 分析 UI 截图

  • 让 AI 识别表格

  • 让 AI 分类手机拍照的文件


Day 16:AI 设计辅助

任务:

  • 让 AI 生成 Logo / 海报

  • 让 AI 自动生成 UI 结构

  • 生成博客封面图


Day 17:AI OCR / 表格识别

任务:

  • 图片 → Excel

  • 扫描件 → 文本

  • 自动处理发票 / 单据


Day 18:AI × 音频处理

任务:

  • Whisper large-v3

  • 中文 / 日语 / 英语互相转换

  • 自动生成字幕文件


Day 19:AI × 视频(可选)

使用:

  • Stable Video Diffusion

  • Runway(如果愿意上云)

  • 让 AI 生成一些镜头


Day 20:多模态整合小作品

产出:
一份 AI 自动生成的图文 + 视频说明作品。


🔥 第 4 周:打造你的“私有 ChatGPT 系统”

目标:你有一个完整的、本地的、可用的 AI 系统。


Day 21:Web 全套系统部署

  • Open WebUI

  • 管理多个模型

  • Web UI 多用户(可选)


Day 22:接入你的知识库

功能:

  • 上传 Word/PDF

  • 图像

  • 压缩包

  • 让 AI 记住所有内容


Day 23:本地语音助手

  • Whisper + TTS

  • 语音对话(像 Siri)

  • 简单自动化控制 PC


Day 24:AI 文件系统助手

让 AI:

  • 自动整理文件

  • 自动分类相册

  • 自动命名文件

  • 自动备份


Day 25:AI 私人搜索引擎

构建:

  • 本地搜索(向量搜索)

  • 文档 → embedding

  • 搜索结果 → LLM 重写答案


Day 26:你的“超级 Prompt”库

建立:

  • 写文 Prompt

  • 编程 Prompt

  • 图像 Prompt

  • 计划、知识库、系统 Prompt


Day 27:性能优化(针对你的 5060Ti)

  • 批处理推理

  • 加速 quantization

  • 多模型混合(VL + Coder)

  • LLM 性能调优


Day 28:构建一个最终作品(任选)

可选作品:

  1. 你的“个人 AI 知识库平台”

  2. 自动化办公助手

  3. 能写代码的 AI 工作站

  4. 自动化爬虫 + 报告系统

  5. AI 博客生成系统


Day 29:测试 + 打包

  • 整体测试

  • 项目文档(AI 自动写)

  • 提炼你的 AI 使用手册


Day 30:你的 AI 系统正式上线

你将拥有:
✔ 本地 ChatGPT
✔ 本地图片 / 视频 / 音频理解
✔ 个人知识库系统
✔ 自动化脚本系统
✔ AI 编程助手
✔ AI 办公助手
✔ 一个实际作品(网站/项目/工具)


🚀 如果你愿意,我可以继续帮你:

只需告诉我:

你想先做哪一项?我就带你从“第一天”立刻开始操作。
例如:

  • “先从本地模型开始”

  • “先从 WordPress 自动化开始”

  • “先从 AI 写代码开始”

你说一个方向,我带你一步一步做。

没有几个让我感兴趣的哇。继续看看。

最伟大的变革——人工智能

2025年10月14日 09:56

如果说这个时代最伟大的变革是什么?

那一定是:人工智能。

2023年2月,我对大火的ChatGPT写了一篇简短的博文,谈了下自己的感受。

重点是,我在博文里对人工智能进行了美好的畅想:

什么时候人工智能会让我惊艳?

我觉得是直接将电影/电视剧本自动转换为影视成片。

或者说,通过人类语言控制电脑生成电影场景、人物,并指挥人物做出各种动作。

简而言之,这个功能/这种技术叫做:

文生视频。

当时,最厉害的大模型也只能做到:

文生图。

现在,经常冲浪的朋友就知道,文生视频早就遍地开花了。

特别是今年国庆期间OpenAI新推出的Sora2,它生成的视频更清晰、自然、复杂,音频和视频一致性达到极佳程度。

虽然我没有亲自体验到Sora2,但社交媒体上大量的生成效果视频已经惊艳到了我。

这段时间我重点体验了一下NONO banana、豆包这两个大模型的图片生成和编辑功能。

我的感受就是:

太他妈牛逼了!

有了这些大模型,生成各类创意图片,合成图片,简直不要太方便。

特别是任意合成自己与明星的合影,算是小小地意淫了一把,实现多年愿望。

最伟大的变革——人工智能

本博主与王心凌亲密合影

当然,目前这些大模型还有不少缺陷,比如,对参考图人物五官保持一致性方面还有点差,经常合成的图片人物面部都改变了,变得不像了。对复杂指令的理解、执行有偏差,对中文的处理经常会出BUG……

但,瑕不掩瑜。

我满怀信心,我们深处的这个时代一定是人工智能时代。

人工智能最大的作用并不是替代人类,而是作为人类更好的帮手。

hello,Mr.AI

2025年1月11日 23:40

没想到新年第一个话题是AI,不算早也不算晚。 之前关注AI的一些新闻,还是用审视科技进步的眼光再看,没想突然间AI就嗖的一下进入了日常生活。 今天和老婆表姐一家人聊天,说起她还在读高中的女儿,已经在网上写“小作文”赚钱了。根据约稿人的要求,...

💾

用 Python 学强化学习: Q-Learning 迷宫示例

[caption id="attachment_70386" align="alignnone" width="2017"]Q Learning强化学习算法(机器学习/人工智能) Q Learning强化学习算法(机器学习/人工智能)[/caption] 强化学习(Reinforcement Learning, RL)是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例,帮助你快速理解强化学习的基本原理。

强化学习入门:从试错中学习的艺术 Reinforcement Learning 101: The Art of Learning by Trial and Error 深度解析强化学习:Q-Learning算法详解 Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm 机器如何学会自己做决定?强化学习告诉你答案 How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained 从奖励中学习:人工智能的“试错智慧” Learning from Rewards: The Trial-and-Error Intelligence Behind AI

一、什么是强化学习?

强化学习的世界中包含五个关键要素:
  • Agent(智能体):做决策、执行动作的主体
  • Environment(环境):智能体所处的世界
  • State(状态):当前环境的描述
  • Action(动作):智能体可采取的操作
  • Reward(奖励):环境反馈,用来衡量动作的好坏
智能体的目标是学习一个策略 π(a|s),让它在每个状态下选择最优动作,从而获得最大的累积奖励。 [math]J(\pi) = \mathbb{E}\pi \left[ \sum{t=0}^{\infty} \gamma^t r_t \right][/math] 其中 [math]\gamma[/math](0 ≤ [math]\gamma[/math] ≤ 1)是折扣因子,用于衡量未来奖励相对于即时奖励的重要程度。

二、Q-Learning 原理

Q-learning 是最经典的强化学习算法之一。它通过学习一个 Q 表(Q-table)来记录每个“状态-动作”对的价值。 更新公式如下: [math] Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s,a)] [/math] 其中:
  • [math] \alpha [/math]:学习率(Learning Rate)
  • [math] \gamma [/math]:折扣因子(Discount Factor)
  • [math] r [/math]:奖励(Reward)
  • [math] s' [/math]:下一状态(Next State)

三、迷宫环境设计

定义一个 3×5 的迷宫
  • 0:空地
  • -1:墙
  • 1:出口(目标)

四、完整 Python 实现代码


import numpy as np
import random

# 1️⃣ 定义迷宫
maze = np.array([
    [0,  0,  0, -1,  1],
    [0, -1,  0, -1,  0],
    [0,  0,  0,  0,  0]
])

n_rows, n_cols = maze.shape
actions = ['up', 'down', 'left', 'right']
Q = np.zeros((n_rows, n_cols, len(actions)))

# 2️⃣ 超参数
alpha = 0.1
gamma = 0.9
epsilon = 0.1
episodes = 500

# 3️⃣ 辅助函数
def is_valid(state):
    r, c = state
    return 0 <= r < n_rows and 0 <= c < n_cols and maze[r, c] != -1

def next_state(state, action):
    r, c = state
    if action == 'up': r -= 1
    elif action == 'down': r += 1
    elif action == 'left': c -= 1
    elif action == 'right': c += 1
    return (r, c)

def get_reward(state):
    r, c = state
    if maze[r, c] == 1: return 10
    elif maze[r, c] == -1: return -1
    return -0.1

# 4️⃣ 训练循环
for episode in range(episodes):
    state = (2, 0)
    done = False

    while not done:
        if random.uniform(0, 1) < epsilon:
            action_idx = random.randint(0, len(actions)-1)
        else:
            action_idx = np.argmax(Q[state[0], state[1]])

        action = actions[action_idx]
        next_s = next_state(state, action)

        if not is_valid(next_s):
            reward = -1
            next_s = state
        else:
            reward = get_reward(next_s)

        Q[state[0], state[1], action_idx] += alpha * (
            reward + gamma * np.max(Q[next_s[0], next_s[1]]) - Q[state[0], state[1], action_idx]
        )

        state = next_s
        if maze[state[0], state[1]] == 1:
            done = True

print("✅ 训练完成!")

# 5️⃣ 查看学到的路径
state = (2, 0)
path = [state]

while maze[state[0], state[1]] != 1:
    action_idx = np.argmax(Q[state[0], state[1]])
    next_s = next_state(state, actions[action_idx])
    if not is_valid(next_s) or next_s in path:
        break
    state = next_s
    path.append(state)

print("🗺️ 学到的路径:", path)

五、运行结果

运行上面的代码后,你会看到类似输出: ✅ 训练完成! 🗺️ 学到的路径: [(2, 0), (2, 1), (2, 2), (1, 2), (0, 2), (0, 3), (0, 4)] 这说明智能体成功学会了走出迷宫 🎯

六、总结

强化学习使机器能够通过反馈学习最优策略,这类似于人类通过经验学习的方式。 Q-Learning 是许多现代强化学习算法的基础,包括深度 Q 网络(Deep Q-Networks, DQN)。 这个简单的示例展示了完整的强化学习循环:探索 → 反馈 → 改进。
  • Q 表:保存每个状态-动作的价值
  • ε-greedy 策略:平衡探索与利用
  • 奖励函数设计:引导智能体形成目标导向行为
  • 强化学习思想:通过试错和奖励反馈不断改进策略
强化学习的魅力在于,它不需要显式答案,而是让机器自己“摸索”出最优策略。你可以在此基础上继续扩展,比如加入 matplotlib 动画可视化 或使用 神经网络(Deep Q-Learning) 解决更复杂的任务。 英文:How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained

相关文章:

  1. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  2. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  3. 第一次私校家长会: 原来家长比孩子还卷 前几天参加了娃的第一次家长会,和几位家长聊下来,真是个个都很厉害。不光孩子们卷,家长也一样卷,一眼望去基本都是 Dr/博士。娃还调侃我一句:“这有什么的,你不也是 Dr 吗?” 我心里默默想:还好没写学校名字,不然我这野鸡大学的头衔真拿不出手 😂。 私校里真是人才济济,乐器过 8 级的太常见了,卷得不得了。我还问过娃,是想当 big fish in a small pond...
  4. 给孩子第一台NUC小电脑 Next Unit of Computing Next Unit of Computing (NUC) is a line of small-form-factor computers...
  5. 和媳妇约个会: 剑桥的过桥米线 Dumpling Trees Dumpling Trees 是位于剑桥 Cherry Hilton 附近的一家中式餐厅,以云南特色的过桥米线闻名。店内环境宽敞整洁,菜品丰富,除了经典的米线,还有各类小吃、烧烤和炒饭,味道地道,分量十足。过桥米线的汤底鲜香,配料新鲜,包括鸡肉、鱿鱼、虾等食材,顾客可以自己下锅涮熟,既好吃又有趣。餐厅提供免费停车,但需在店内登记车牌,适合家庭聚餐或周末小聚。 剑桥 Cherry Hilton 那边有一家叫 Dumpling Trees 的过桥米线店,两三年前的冬天我们去吃过一次(剑桥 Dumpling Tree...
  6. 微信PC端程序占用了1.39 TB的空间! 快速清理微信占用空间 前两天我的 C 盘剩余空间突然变红了,我随手一查,竟然发现微信 PC 端程序居然占用了 1.39 TB 的空间,简直不可思议。在手机上,微信同样是名列前茅的“吞空间大户”,在 设置 → 通用 → 手机存储空间 里几乎稳居第一。 更离谱的是,这些空间大多并不是因为聊天记录,而是各种缓存文件、视频、图片和被动接收的文件所堆积起来的。平时我们只是点开看一眼,就算没保存下来,微信也会悄悄把它们留在本地,占据大量磁盘。尤其是群聊里转发的视频和文件,日积月累就成了一个“隐形黑洞”。...
  7. C++的左值/lvalue, 右值/rvalue和右值引用/rvalue references C++ 左值(lvalue)、右值(rvalue)与右值引用(rvalue reference) 理解 C++ 中的左值、右值及其引用形式,是掌握现代 C++(尤其是 C++11 以后的移动语义/move和完美转发/perfect forwarding)必不可少的基础。 📌 什么是左值(lvalue) 左值指的是有名字、可寻址的对象,通常可以出现在赋值语句的左侧。 int x...
  8. 比特币最近波动有点大: 一天牛市一天熊 比特币10万美金以内都是最后上车的机会! 比特币近期的价格波动可以归因于多个关键因素,包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道,特朗普再次当选,他可能会推动减少美国对乌克兰的支持,这可能会影响全球金融市场和风险偏好。同时,特朗普正在将自己塑造为亲加密货币的候选人,表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测,导致市场情绪在乐观和不确定性之间波动。 特朗普对俄乌战争的态度 美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任(第二次),那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测,而是正在实际塑造市场的关键力量。 特朗普(Donald Trump)减少美国对乌克兰的支持,全球投资者可能会预期地缘政治稳定性发生变化,从而增加对比特币作为避险资产的需求。同时,他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策,例如明确的合规指南或减少监管审查,可能会吸引更多机构投资者进入市场,并促进更广泛的加密货币采用。然而,政策的快速变化也可能导致短期市场剧烈波动,因为市场需要时间来消化新的政策动向。 朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道,Bybit交易所(全球第二)这些被盗的ETH已经被清洗,此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心,还可能引发更严格的监管审查,导致短期市场动荡。此外,被盗资金的大规模流动和出售可能对市场流动性造成冲击,进一步加大价格波动。随着这些事件的持续发酵,比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。 与此同时,与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗,人们对加密行业安全漏洞的担忧持续存在,同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起,共同导致了比特币近期的剧烈价格波动。...

辞未动心已至

2025年9月24日 19:34

在罗伯特·M·波西格的《禅与摩托车维修艺术》中,「良质」(Quality)是一个贯穿全书却难以定义的核心概念。它不是物理意义上的「质量」,也不是某种可测量的属性,而是一种「先于主体与客体,先于理性与感性」的整体体验。

有评论这样解释:「回想自己跟人说话,你是不是很自然地就可以把一句话说出来,而不是说了第一个字再去想第二个字,想完第二个到第三……良质就是你要说的那句话(或者这句话代表的那个意思),它先于主体的你和说出来的话(客体)而存在。」

良质像是一句话在说出口前就已经存在于心中——语言是将它逐步展开的过程。当然,这只是一个比喻;在波西格看来,良质还涵盖经验、直觉与价值感,而不仅仅是语言层面的先在语义。

以此为引子,本文想探讨人类语言和大模型(比如 ChatGPT)之间的差异。

差异

大模型的语言输出,本质上是概率建模,它只能在已有上下文的基础上预测下一个词。句子的意义,并非预先存在,而是在逐字推进中逐渐浮现、事后建构。

尽管借助注意力机制,模型能在输出中保持较高的「全局一致性」,从而在效果上模拟出具有意图的言语行为,但这种一致性更多是统计规律下的涌现现象,而非源于一个先在的、完整的表达意图。

相比之下,人类在开口说话之前,内心往往已有一个相对完整的意义轮廓。它可能是模糊的情感基调,也可能是清晰的逻辑结构,又或是某种希望传递的态度。大脑中的语义网络并行激活着场景、情绪、因果链条,而语言系统则将这一高维、并发的意向「投影」为线性的词句序列。

人类也会在言说中调整想法,甚至借由说话来厘清思维。但总体而言,我们的语言是从整体意向出发,向表达延展的过程。胡塞尔称之为「意向性」,柏格森称之为「直觉」,而波西格,则称其为「良质」。

驱动

人类的「整体性」往往带有价值判断和情感色彩。我们在表达前的「完整意向」,不仅是语义的,也是价值驱动的——潜意识中知道自己想要传达什么样的态度、建立什么样的关系、达成什么样的目标。

而 AI 的统计生成模式,虽然能够产生高度连贯的文本,但没有一个真正的「为什么要这样说」的内在驱动。

换句话说,目前 AI 的「内在驱动」并非自身生成,而是由人类外部补充。我们提出问题、设定方向、隐含价值期待,AI 则在概率的框架中展开回应。

那么,如果 AI 在功能表现上日益逼近人类,这种内在的价值驱动是否仍是不可或缺的?

倘若机器是「擅长执行的工具」,那么一个失去了良质感知的人,或许正悄然沦为「被工具化」的存在。

真正的价值,不仅在于把事情做对,更在于在行动之前,保有那一瞬的迟疑与自问:「这件事,为什么值得去做?」

正是这个追问,让语言成为意义的流露,而非词语的堆砌;也让我们在当下的技术狂潮中,仍与 AI 有所区别。

当思考按字数收费

2025年8月11日 19:47

0

Claude、ChatGPT 这些大模型很有趣的一点是,无论人类主观认为问题的难度如何,它都按 token 数计费。

1

传统认为「理念」(内容/意义)高于「现象」(形式/符号),但在 LLM 定价中,纯粹的符号数量决定了价格,完全脱离了意义维度。

这挑战了我们对价值本源的理解。人类似乎从「知识生产者模式」,到了「意义验证者模式」阶段。

知识生产者模式:Human → Knowledge → World (单向的创造与输出)

意义验证者模式:Human ⟷ AI ⟷ Knowledge ⟷ World (循环的对话与验证)

知识不是对感官现象的被动接受,而是通过辩证法——包括提问、反驳和循环论证——来把握事物的抽象本质(即「理念」或「形式」)。

想到此刻,越来越佩服 ChatGPT 选择以对话为逻辑搭建可视化交互框架。

对话强制人类参与验证过程,每个回合都是一次意义协商。

2

未来,稀缺的不是知识,而是注意力、验证能力和意义建构能力

当信息无限,你的关注模式就是你的存在模式。

(现阶段,AI输出的是概率分布,不是确定性知识。每次对话不只是「验证」,更是风险管理,评估哪些输出可以信任,哪些需要二次确认。)

归纳法对世界的改造

2025年1月20日 05:20

从简单的统计模型,到后面的计量经济学,到机器学习,到现在的人工智能,过去的二十年是归纳法大发展的二十年。为什么只看二十年呢,因为二十年前的园主不知世事,超出认知范围之外了。

经济学在大规模应用计量经济学之前,一直是和物理学神似的,也被叫做社会科学中的物理学。而计量经济学的发展与突破也不是纯属巧合,主要是大规模经济金融数据的爆发。

早期的计量经济学,无论是宏观还是微观,其实都还是有深深的“结构化”的影子,就是需要一个结构化的模型来解释为什么会这样,有一堆变量和与之相对的系数,然后再用数据来估计系数。现在回头看,这个时期的计量经济学还是停留在一个“辅助”的阶段,数据的价值只是帮助计算系数。

然后计量经济学就向着弱结构化的方向一去不复返。可以说这是理论的发展赶不上数据的爆发,也可以说是人们渐渐失去了对结构化的理论的执念。这大概等同于量子力学之于传统物理学的革命,人们开始接受这个结构的模糊化。可就算是在这个阶段,人们的执念还是“因果关系”,直到今日计量经济学还是把因果推断作为其存在的哲学本源,试图从归纳法的角度倒推演绎法需要的因果关系。

然后随着机器学习的大爆发,人们从开始的“预测”和“因果推断”是两回事,到逐渐的审问自己,为什么对因果有这么强烈的执念?退一步说,到底什么是因果关系?这个时候才发现,因果关系其实在哲学上的定义也不是那么得清晰。园主在这里就不挖太深了,否则填因果这个坑就要填好久。

这些年,随着大语言模型的爆发,人工智能好像又解锁了一个新的阶段。虽然一边说着大语言就是一个预测方向无意的突破,另一边园主却看到人工智能落地层面对于结构化关系的依赖性慢慢减弱。以前我们的解决办法是对一个问题不断地细分梳理,然后逐个攻破。而现在大模型的冲击就是,我们真的有必要这样分解问题本身吗?如果深度学习模型本身可以就自动学出来一个等同于以前结构化的东西,就算我们没有办法把它明确的表达出来,哪又如何呢?

到这里,深度学习无疑是冲击到一个哲学层面的问题。当数据远远超过了理论的发展的时候,是不是演绎法的价值就远远不及归纳了?我们是像以前那样路径依赖,一定要对问题做一个外科手术一样精准的分解,还是可以容忍结构慢慢演变成一个黑盒子,给它无尽的自适应的能力,然后只需要关注结果就可以了?

这一波深度学习对于人工智能的冲击,我觉得体现到最后, 其实可能是一个去结构化的冲击。我们选择放弃对于结构关系的清晰表述,然后拥抱强化的预测能力对于世界的适应和改造。

人们对于深度学习和大模型的恐惧在于我们无法解释、进而无法控制。一旦我们适应和接受,下一步就是挖掘其无尽的潜力,实现下一轮生产力的爆发。

无论如何,我还是看好科技发展与世界进步的,就算过程中会有无尽的波折。

先补帧还是先放大

2025年11月14日 14:45

最近一直很无聊的在用AI工具做 文生图生视频 动画。线上用的豆包文生图,即梦首尾帧图生视频。豆包也有用图生视频,把首帧图倒放,然后接到即梦视频的前面。

因为豆包和即梦的视频输出是诡异的 1248x704p24fps,704甚至不能被9整除,1248÷16×9=702(根据网上搜到的结果说是为了匹配patch所以要能被32整除)。所以我在线下用了 realesrgan-ncnn-vulkan 和 rife-ncnn-vulkan 把输出放大到 1408p ,把帧率补到 60fps,然后再用 FFMPEG 重新编码到 1080p60fps。

(可灵虽然直出1920x1080p24fps,但是一个月就166个点数,非会员生成视频还要等几个小时,而且不还能多个生成并发排队,有时候生成的结果还特别像幻灯片然后补帧到的24fps。屁用没有)

这样就有一个疑问了:

是先补帧?还是先放大?


交换律?

首先第一刻板印象当然是想到了交换律,即最终结果都是1408p60fps,所以顺序并不重要。

但仔细一想,插帧是一种算法实现,缩放是另一种算法实现,这两种算法除了都是从卷积派生出来的之外,基本没啥数学关系,甚至先补帧后缩放和先缩放后补帧的1408p60fps输出结果都不一样。

所以这玩意不符合交换律。

而我其实并不太关心最终结果的质量。这俩工具目前的使用场景都是大玩具,实际生产环境也是作为玩具存在的。

我更在意的是在有限性能下,哪个前哪个后的总耗时更短,速度更快。

当然这俩玩意的算法我是没研究过,即使研究了,其在实际场景下还有多核和多线程调用的差异,在不同硬件和不同驱动下也肯定没准。

还不如在自己机器上实际跑一遍测速。


测试

所有测试中用到的视频,我上传到了B站。因为B站有二压的特性,所以所有视频素材整合到了同一个60fps的视频中。同时因为B站的限制,非会员只能观看30fps的视频,补帧效果可能看不出来。

每个测试用例的首帧图我会放到文章中。

测试用例1:AI生成的简单动画

首先准备测试用例。

我是不知道输入源的哪个因素对两个工具的性能影响最大,所以准备了两个实际素材。

一个素材偏重于更静态的图像,另一个素材则更偏重于运动场景。两个素材均是分辨率 704p 的PNG图像,共 49 帧。

当然我没有用极端测试场景(比如H.264等图形算法最常用的雪花图像,这玩意怎么缩放和补帧?),真实素材也更符合实际日常使用的结果。

输出目标均为:1408p 图像(704p的2倍),121 帧(由24fps插帧到60fps)

AI引擎和模型使用:

  • 放大引擎:realesrgan-ncnn-vulkan-20220424-ubuntu,模型:realesr-animevideov3
  • 插帧引擎:TNTwise-rife-ncnn-vulkan-20240102-frame-count-patch,模型:rife-v4.10_ensembleTrue

补帧和放大均使用目录路径作为输入参数,以排除文件系统调用和模型重复预热引入的性能限制。两个工具也均支持GPU加速所以没有单线程限制(反过来也就是说CPU和GPU在性能统计上会变得乱七八糟而没有参考价值)

存储则使用 ramdisk ,以减少硬盘读写性能的影响。

结果:

偏重静态的图像:

snap-20251022212700_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	0m15.478s
user	0m30.060s
sys	    0m0.874s

这里,如果你没有使用 Linux time 命令的经验的话,我可以简单解释一下:

  • real指的是实际用时,即真实世界时间,和你用秒表测量的数值是一样的
  • user指的是用户态的CPU时间
  • sys指的是内核态CPU时间
  • 在单核单线程硬件下,real=user+sys,但是在多核多线程场景下,每个核的CPU时间都是独立的,所以这个时间统计在现在这个场景下基本没意义。
    (解释并不精确,如果你想深入学习,建议看更详细的资料)

所以在目前这个场景下,我们只关注real这个真实耗时就足够了。

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output

计算 (49 - 1) * 60 / 24 + 1
源帧数: 49
目标帧数: 121

real	0m35.632s
user	1m27.617s
sys	    0m1.462s

放大约15秒,补帧约35秒,总计约50秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

计算 (49 - 1) * 60 / 24 + 1
源帧数: 49
目标帧数: 121

real	0m7.843s
user	0m15.536s
sys 	0m0.707s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	0m36.348s
user	1m14.572s
sys	    0m1.513s

补帧约8秒,放大约36秒,总计约44秒。

结果是 先补帧后放大 优于 先放大后补帧

偏重运动的图像:

snap-20251022214458_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	0m16.676s
user	0m30.713s
sys	    0m1.277s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output

real	0m36.721s
user	1m33.545s
sys 	0m1.513s

放大约16秒,补帧约36秒,总计约52秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m9.753s
user	0m20.995s
sys	    0m0.850s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-out/ -v

real	0m37.459s
user	1m16.351s
sys	    0m2.180s

补帧约10秒,放大约38秒,总计约48秒。

结论是:

  • 高动态的图像的确为插帧带来了更多压力
  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

很奇妙的是不论先后顺序,第二步的耗时都差不多。


测试用例2:AI生成的长动画

实际只测试两秒钟(49帧-121帧),打算再测一个输入时长更长的,看看能不能把性能差距拉得更开。

同样是两组,一组偏静态,另一组偏动态。

这回输入均为10秒钟24fps,241帧。目标仍是 60fps,601帧。

(注:这所谓的10秒其实是两个5秒钟视频贴在一起的,第一个视频使用即梦生成,首尾帧相同。第二个视频使用豆包生成,根据关键字调整了动作幅度)

结果:

偏重静态的图像:

snap-20251024222139_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m9.580s
user	2m21.161s
sys	    0m3.010s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

计算 (241 - 1) * 60 / 24 + 1
源帧数: 241
目标帧数: 601

real	2m45.014s
user	7m9.693s
sys 	0m3.845s

放大约70秒,补帧约165秒,总计约235秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m33.821s
user	1m11.185s
sys	    0m1.258s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m52.675s
user	5m57.794s
sys	    0m8.370s

补帧约34秒,放大约173秒,总计约207秒。

偏重动态的图像:

snap-20251024221945_nowatermark

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m10.573s
user	2m24.758s
sys	    0m2.371s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

real	2m49.481s
user	7m27.740s
sys	    0m4.279s

放大约70秒,补帧约170秒,总计约240秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m39.217s
user	1m32.454s
sys 	0m1.594s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	3m0.312s
user	6m19.679s
sys	    0m5.674s

补帧约40秒,放大约180秒,总计约220秒。

结论是:

  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

测试用例3:AI生成的现实场景视频

这里得偷懒了。缩放工具 realesrgan 本身的默认模型 realesrgan-x4plus 对现实场景的缩放效果更好,但是其仅支持4的整数倍缩放,在现在这个场景下比较浪费。
同样 rife 这边也有更适合现实场景的补帧模型,但我也打算偷懒。

所以模型将仍然使用 realesr-animevideov3 和 rife-v4.10_ensembleTrue 。

视频输入样本,偏静态样本仍为即梦5秒+豆包5秒,但偏动态样本这回使用即梦生成的10秒,因为偏动态的内容,现实场景首尾帧相同实在太诡异了,而且即梦和豆包生成奔跑内容的视频效果非常差,经常就变成单腿跳。

结果:

偏重静态的图像:

snap-20251105235631_nowatermark

time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m9.756s
user	2m22.813s
sys 	0m2.415s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

real	2m49.322s
user	7m21.308s
sys	    0m3.992s

放大约70秒,补帧约170秒,总计约240秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m37.079s
user	1m27.702s
sys	    0m1.498s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m51.899s
user	6m0.976s
sys	    0m4.820s

补帧约37秒,放大约171秒,总计约208秒。

偏重动态的图像:

snap-2025-11-08-9101

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m10.753s
user	2m24.943s
sys	    0m2.365s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

real	2m49.142s
user	7m16.057s
sys	    0m3.969s

放大约70秒,补帧约170秒,总计约240秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m38.306s
user	1m29.791s
sys	    0m1.516s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m49.268s
user	5m55.462s
sys	    0m4.760s

补帧约39秒,放大约170秒,总计约209秒。

结论是:

  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

测试用例4:真实现实场景视频

这个源不太好找,现在手里没有24fps的摄像机这玩意,目前常见的摄像设备都是30fps,60fps,120fps,240fps,960fps的。

所以这里将测试用例调整一下。

首先,源视频是拍摄的一段1080p60fps的视频,再缩小成704×1252,再把1252剪成1248。

然后分为两个策略:

  1. 去掉所有偶数帧,这样源就变成30fps了。虽然当然也可以直接拍30fps的视频,但有个补帧缩放后有个对比也算不错。
  2. 使用比较主流的减帧策略(丢弃每5帧中的第2、3、5帧),将60fps视频减至24fps。

(当然像OpenCamera这种App也支持拍摄24fps视频,但是场景过于小众了)

这样做的目的是:rife 的非整数倍补帧, 24补到60是2.5倍,只有奇数帧会被保留,偶数帧在算法里被用掉之后就被丢弃了。

相关日志:

/tmp/ramdisk/rife-tmp//0-000001.png /tmp/ramdisk/rife-tmp//0-000002.png 0.000000 -&gt; /tmp/ramdisk/rife-output//00000001.png done
/tmp/ramdisk/rife-tmp//0-000001.png /tmp/ramdisk/rife-tmp//0-000002.png 0.400000 -&gt; /tmp/ramdisk/rife-output//00000002.png done
/tmp/ramdisk/rife-tmp//0-000001.png /tmp/ramdisk/rife-tmp//0-000002.png 0.800000 -&gt; /tmp/ramdisk/rife-output//00000003.png done
/tmp/ramdisk/rife-tmp//0-000002.png /tmp/ramdisk/rife-tmp//0-000003.png 0.200000 -&gt; /tmp/ramdisk/rife-output//00000004.png done
/tmp/ramdisk/rife-tmp//0-000003.png /tmp/ramdisk/rife-tmp//0-000004.png 0.000000 -&gt; /tmp/ramdisk/rife-output//00000006.png done
/tmp/ramdisk/rife-tmp//0-000002.png /tmp/ramdisk/rife-tmp//0-000003.png 0.600000 -&gt; /tmp/ramdisk/rife-output//00000005.png done
/tmp/ramdisk/rife-tmp//0-000003.png /tmp/ramdisk/rife-tmp//0-000004.png 0.400000 -&gt; /tmp/ramdisk/rife-output//00000007.png done
/tmp/ramdisk/rife-tmp//0-000003.png /tmp/ramdisk/rife-tmp//0-000004.png 0.800000 -&gt; /tmp/ramdisk/rife-output//00000008.png done
/tmp/ramdisk/rife-tmp//0-000004.png /tmp/ramdisk/rife-tmp//0-000005.png 0.200000 -&gt; /tmp/ramdisk/rife-output//00000009.png done
/tmp/ramdisk/rife-tmp//0-000005.png /tmp/ramdisk/rife-tmp//0-000006.png 0.000000 -&gt; /tmp/ramdisk/rife-output//00000011.png done
/tmp/ramdisk/rife-tmp//0-000004.png /tmp/ramdisk/rife-tmp//0-000005.png 0.600000 -&gt; /tmp/ramdisk/rife-output//00000010.png done
/tmp/ramdisk/rife-tmp//0-000005.png /tmp/ramdisk/rife-tmp//0-000006.png 0.400000 -&gt; /tmp/ramdisk/rife-output//00000012.png done

所以这次测试用例是:

  • (类)原生30帧补到60帧
  • (由2:3策略减帧的)24帧补到60帧

模型也同样使用 realesr-animevideov3 和 rife-v4.10_ensembleTrue 。

偏静态与偏动态不做区分了,本身真实场景,除非是使用三脚架固定相机拍摄,否则也没啥偏静态的场景,大多数都是动态且镜头抖动巨大,个人拍摄的内容还有严重的低光照问题。

(说白了还不是因为根本没有可用的视频素材)

结果:

snap-2676

30帧补到60帧

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m24.551s
user	2m57.076s
sys	    0m2.912s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/

计算 (301 - 1) * 60 / 30 + 1
源帧数: 301
目标帧数: 601

real	2m43.455s
user	7m6.708s
sys 	0m3.595s

放大约85秒,补帧约164秒,总计约249秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m43.132s
user	1m52.735s
sys	    0m1.387s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m48.691s
user	5m56.668s
sys	    0m5.217s

补帧约43秒,放大约169秒,总计约209秒。

24帧补到60帧

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-input/ -o /tmp/ramdisk/rife-tmp/ -v

real	1m7.531s
user	2m21.199s
sys	    0m2.532s

$ time ./2_rife.sh /tmp/ramdisk/rife-tmp/ /tmp/ramdisk/rife-output/


计算 (241 - 1) * 60 / 24 + 1
源帧数: 241
目标帧数: 601

real	2m45.471s
user	7m11.694s
sys	    0m4.140s

放大约68秒,补帧约165秒,总计约233秒。

$ time ./2_rife.sh /tmp/ramdisk/rife-input/ /tmp/ramdisk/rife-tmp/

real	0m42.656s
user	1m52.408s
sys	    0m1.312s

$ time /mystorage2/tools/realesrgan-ncnn-vulkan-20220424-ubuntu/realesrgan-ncnn-vulkan -n realesr-animevideov3 -f png -s 2 -i /tmp/ramdisk/rife-tmp/ -o /tmp/ramdisk/rife-output/ -v

real	2m46.998s
user	5m53.404s
sys	    0m5.189s

补帧约42秒,放大约167秒,总计约209秒。

结论是:

  • 先补帧后放大的总耗时 小于 先放大后补帧的总耗时

测试总结

  • 所有测试用例的场景下,先补帧后放大的总耗时 总是小于 先放大后补帧的总耗时

相关视频

【AI工具研究之:先放大还是先补帧】 https://www.bilibili.com/video/BV1yoCtBFE1L/?share_source=copy_web&vd_source=bc6d7e4cd2c1f2bba38d19773d2bc1fc


结尾

这几组测试用例其实都不严谨,没有参考官方的建议在不同场景下使用不同模型,而且因为这是我的个人电脑,里面跑的乱七八糟东西特别多,CPU和GPU在跑用例的时候偶尔也会被其他应用调用,所以每次跑的时候精度都一般,误差很大。我本来也只是跑着玩的,根本没多次测试然后取平均值。好孩子不要学。

本次测试结果仅代表两个工具以及对应模型在本人主机硬件环境上的性能测试结果,不对其在其他场景下的性能负责。请勿将本文中的结论用于生产环境。

The post 先补帧还是先放大 first appeared on 石樱灯笼博客.

参观WAIC2025世界人工智能大会

2025年9月6日 23:28

7月17号的时候收到了来自苏州软件协会的一条消息,作为会员企业可以免费去参加这次活动,公司的行政将这件事告知给我并报上了名,最近这一年半载迫于现实的压力总想让自己变得更强一点,学习更多的新技能了 …

这股裁员风会很快刮到我们这里来

2025年11月7日 00:00

AI

最近一年来,美国几大科技公司(互联网大厂)的裁员新闻,令我有所震惊,光下面这几组数据,每个公司都在裁掉成千上万的员工。

2025 年美国主要科技公司裁员情况对比
公司名称 裁员时间 裁员人数 占总员工比例 裁员主要部门 官方或媒体提到的原因
Google(Alphabet) 2025年1月、5月、10月 累计约 1.5 万人 约 6% 云计算、硬件、招聘与广告部门 精简非核心业务、投入 AI 和云算力基础设施
Microsoft 2025年2月与6月 约 1 万人 约 5% LinkedIn、游戏与市场部门 AI 转型与成本优化、业务重组
Amazon 2025年3月 超过 2 万人 约 6–7% AWS、零售、设备部门 专注盈利业务、AI 驱动自动化
Meta(Facebook) 2025年初 约 8,000 人 约 5% 运营、招聘与 Reality Labs “效率之年”持续,聚焦 AI 和元宇宙核心项目
Apple 2025年上半年 约 3,000 人 <2% 硬件与零售支持 重组 Vision Pro 团队、控制成本
Tesla 2025年4月 约 6,000 人 约 8% 制造、销售与软件测试 电动车需求波动、聚焦自动驾驶与 AI 芯片
Intel 2025年中 约 10,000 人 约 15% 制造与行政管理 盈利压力、转型 AI 芯片与代工服务
Salesforce 2025年初 约 7,000 人 约 10% 销售与客服 AI 自动化减少人工岗位、利润优化

而且,在被裁的科技员工中,超过 68% 拥有硕士或博士学位,而本科毕业于前 100 名高校的比例也超过 40%。这与“科技公司裁员”传统印象(基层岗位多)不同:这次很多是中层、项目经理、数据分析师、产品负责人被裁。这些被裁的员工的毕业院校包括 Stanford、Berkeley、CMU、MIT、哥大、密歇根、滑铁卢、UCL 等一系列名校。

另外,与以前遇到经济危机、企业经营不善的情况相反,这次并非如此,裁员之后,这些公司的股价得到资本市场认可。

这背后的主要原因就是人工智能的发展,AI的发展会令人类工作岗位遭到重新洗牌,但我没有想到居然这么快,企业把人类的岗位裁下去以后,直接用这些工资支出买GPU显卡算力,对于企业的发展更为有利,也因此资本市场非常认可这种裁员。

纵观人类历史,每一次科技浪潮都会对人类社会造成冲击,这一次也不例外。

技术浪潮与学历影响(概览)
时期 技术浪潮 受影响的学历群体 典型表现 社会影响 普通人应对方式
18世纪末–19世纪初 工业革命(蒸汽机、机械化生产) 手工业师傅、行会学徒 机械替代手工技艺,传统手工业者失业 “卢德运动”爆发,技术工人抗议机器 转向机械操作、工程管理等新技能
20世纪初 电气化与流水线生产 传统工匠与一般技校毕业生 工厂普遍采用标准化生产流程 大量重复性岗位被替代,学历优势下降 学习机械工程、电气工程等新兴学科
20世纪80–90年代 计算机与信息革命 文秘、档案管理、基础会计等文职人员 电脑替代打字员、档案员等岗位 本科文凭普及但“含金量”下降 学习计算机技能、数据分析、程序设计
2000年代中期 互联网与自动化浪潮 中层管理人员、传统媒体从业者 企业层级扁平化,新闻传播方式改变 信息不对称减少,学历溢价下降 发展跨界能力与创新思维
2020年代 人工智能与大模型浪潮 程序员、设计师、内容创作者等知识型群体 AI自动化生成与辅助系统广泛应用 高学历岗位被部分替代或重构 提升人机协作能力、AI应用素养、复合型技能

对于美国大厂这一波裁员事件,我个人想到的思考有以下三点:

第一,学历文凭有用,但将继续贬值。过去进入顶尖名校(如常春藤、MIT、斯坦福)并拿到大厂(FAANG – Facebook/Meta, Amazon, Apple, Netflix, Google)的offer,被视为“上岸”的终极形态,从今往后,“学历贬值”将继续演变下去。当然,学历(如大学文凭)本身不会说变得一文不值,而是指它不再能保证一个稳定、高薪、一劳永逸的未来。同时,我们每个人都需要保持终生学习的态度,否则,学历所代表的知识体系会迅速过时。

第二,AI带来生产能力提升,并不是一件坏事,有些社会商品和服务将会变得廉价——我们的生活质量会变得更好,另一些将变得昂贵——我们人类可以提供这类服务赚钱。

“极度廉价”的(可标准化的)商品和服务:

  • 所有数字产品: 软件、游戏、订阅服务、AI算力。
  • 标准化的实体商品: 基础食物、衣物、家电、交通工具。
  • 标准化的服务: 基础的法律咨询、财务记账、翻译、代码编写(这些将被AI接管)。

“极度昂贵”的(稀缺的)产品和服务:

  • 人类的、个性化的服务: 顶级的医生、创意总监、心理咨询师、手工匠人、贴心的护理服务。
  • 稀缺的位置和体验: 核心城市的房产、独特的旅行体验、现场的艺术表演(音乐会、体育比赛)。
  • 人与人之间的真实连接: 情感、信任、社群归属感。

第三、个体如何发展?人类个体要考虑与AI进行差异化竞争发展。我们和AI比效率完全不再有优势——就像人类跑步和汽车比速度、人类打算盘算数和计算器比速度,相反,我们也许做一些想象创造力的事情,或者做一些可见的将来机器和AI还做不了的事情——参考上面提到的“极度昂贵”的(稀缺的)产品和服务,只做一个会考试的应试者没有用处——文凭用处没有过去那么大了。

此外,我个人还认为,美国大厂这股裁员风会很快刮到我们这里来,这种事情不以个人的意志而受到阻碍。

AI时代还要自己写作吗?

2025年10月31日 00:00

AI

我最近很少在博客上写作了,一个重要的原因是人工智能AI的盛行,它令我一度感到很困惑。就拿写作这件事情来说,我发现人类在AI面前,人类完全和AI没法比,而我还不是那个最聪明的人类。

前一阵子,我想写点平时读书后的读后感,如果借助AI,可以很短时间就生成大而全甚至符合自己个性要求的文章。而我自己一个字一个字写的话,无论是速度还是质量,都达不到AI的水平。这种对比非常打击我想写作的欲望,可以看出来,我最近的更新频率都快变成了月更了——每月只更新一篇。

然而这样大而全甚至有一定个性的AI文章(如果提示词足够细致的话),它还是我的思想的体现吗?记录的是我的真实想法吗?我不这样认为。哪怕我自己写的东西不完美,它至少是我的真实想法。

我反思我自己写作的目的。我并不是为了写出完美的文字——我也写不出来,我的目的就是为了记录自己的想法和经历,顺便分享、交流。通过写作这个过程确保我的思维不老化,让我接触更多的信息和产生思考,同时也享受这个过程带来的快乐。这样一想,我自己写作和AI帮我写作完全就是两件事情,甚至是我在AI时代更需要做的事情——思想体操,我不想老得那么快——至少是思想层面。

回想起交通工具汽车诞生之后,我们人类跑步就已经基本失去作为交通方式的意义了。无论人跑得多快,也跑不过一辆最差的汽车,更不用说飞机火箭的速度了。那人类还需要跑步吗?

我们依然还在跑步,甚至很多人喜欢跑马拉松,在国际比赛中还不断去打破以往的各种跑步世界纪录。我们跑步的目的是什么?不是为了和汽车比速度。而是为了锻炼自己的身体机能,更多的人在锻炼过程的汗水里收获多巴胺——快乐。

面对这AI时代,确实会对许多事情产生冲击,哪怕是写作这件个人爱好,AI的出现也让我产生了以上这些想法。好在我还能思考,我思故我在:知道为什么要做这件事情,比知道如何去做更重要。

机器终将读懂一切

2025年10月9日 10:49

总感觉发布博客文章的耗时太漫长,细节不多讲,总之似乎是某个环节浪费了太多时间,于是打算精简结构。首先挨个功能权衡一下是去是留。轮到每篇文章内容下方的「相关文章」列表时,突然想起一位故人。

Leavic 是我二十年前因为同样使用 MovableType 写博客而认识的一位朋友,这些倒是题外话了,因为现在他的博客早已无法访问。甚至搜索「leavic lifetyper」这些关键词,结果都寥寥无几,他好像是彻底和网络断绝了联系。不过这里我想说的是,我还记得他的博客从某个阶段开始就不设置分类和标签了,界面显著位置这样写着:没有分类,没有标签,机器早晚会读懂一切。

不禁感叹兄之远见。而我几乎是刚刚才知道,机器(AI)通过把内容转换成向量——超高纬度的抽象概念数据(Embeddings),然后简单地对比向量的相似度,就能完成分类、匹配相关文章,或者别的什么语义相关的工作,就像真的读懂了一切。

想到一款手机应用:Huxe。它可以搜罗妳设置的兴趣话题的近期新闻,然后像聊天一样聊给妳听。它在向我介绍咖啡相关的一些内容时,可能是为了让台词衔接更顺畅,说了这样一段:

这我很有体会。在开始写一篇复杂的文章前,我一定会先花十分钟手冲一杯咖啡。这个过程确实能帮我整理思绪。

抱歉,我没有歧视机器的意思,但,我该怎么相信它说的「很有体会」? 好吧,或许向量转化成字符的那几毫秒,被它类比成「花十分钟手冲一杯咖啡」,但它又如何确信这种类比成立?

fin.

❌