用 Python 学强化学习: Q-Learning 迷宫示例

2025年11月12日 19:42

[caption id="attachment_70386" align="alignnone" width="2017"] Q Learning强化学习算法(机器学习/人工智能)[/caption] 强化学习（Reinforcement Learning, RL）是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例，帮助你快速理解强化学习的基本原理。

强化学习入门：从试错中学习的艺术 Reinforcement Learning 101: The Art of Learning by Trial and Error 深度解析强化学习：Q-Learning算法详解 Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm 机器如何学会自己做决定？强化学习告诉你答案 How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained 从奖励中学习：人工智能的“试错智慧” Learning from Rewards: The Trial-and-Error Intelligence Behind AI

一、什么是强化学习？

强化学习的世界中包含五个关键要素：

Agent（智能体）：做决策、执行动作的主体
Environment（环境）：智能体所处的世界
State（状态）：当前环境的描述
Action（动作）：智能体可采取的操作
Reward（奖励）：环境反馈，用来衡量动作的好坏

智能体的目标是学习一个策略 π(a|s)，让它在每个状态下选择最优动作，从而获得最大的累积奖励。 [math]J(\pi) = \mathbb{E}\pi \left[ \sum{t=0}^{\infty} \gamma^t r_t \right][/math] 其中 [math]\gamma[/math]（0 ≤ [math]\gamma[/math] ≤ 1）是折扣因子，用于衡量未来奖励相对于即时奖励的重要程度。

二、Q-Learning 原理

Q-learning 是最经典的强化学习算法之一。它通过学习一个 Q 表（Q-table）来记录每个“状态-动作”对的价值。更新公式如下：


[math] Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s,a)] [/math]

其中：

[math] \alpha [/math]：学习率（Learning Rate）
[math] \gamma [/math]：折扣因子（Discount Factor）
[math] r [/math]：奖励（Reward）
[math] s' [/math]：下一状态（Next State）

三、迷宫环境设计

定义一个 3×5 的迷宫：

0：空地
-1：墙
1：出口（目标）

四、完整 Python 实现代码


import numpy as np
import random

# 1️⃣ 定义迷宫
maze = np.array([
    [0,  0,  0, -1,  1],
    [0, -1,  0, -1,  0],
    [0,  0,  0,  0,  0]
])

n_rows, n_cols = maze.shape
actions = ['up', 'down', 'left', 'right']
Q = np.zeros((n_rows, n_cols, len(actions)))

# 2️⃣ 超参数
alpha = 0.1
gamma = 0.9
epsilon = 0.1
episodes = 500

# 3️⃣ 辅助函数
def is_valid(state):
    r, c = state
    return 0 <= r < n_rows and 0 <= c < n_cols and maze[r, c] != -1

def next_state(state, action):
    r, c = state
    if action == 'up': r -= 1
    elif action == 'down': r += 1
    elif action == 'left': c -= 1
    elif action == 'right': c += 1
    return (r, c)

def get_reward(state):
    r, c = state
    if maze[r, c] == 1: return 10
    elif maze[r, c] == -1: return -1
    return -0.1

# 4️⃣ 训练循环
for episode in range(episodes):
    state = (2, 0)
    done = False

    while not done:
        if random.uniform(0, 1) < epsilon:
            action_idx = random.randint(0, len(actions)-1)
        else:
            action_idx = np.argmax(Q[state[0], state[1]])

        action = actions[action_idx]
        next_s = next_state(state, action)

        if not is_valid(next_s):
            reward = -1
            next_s = state
        else:
            reward = get_reward(next_s)

        Q[state[0], state[1], action_idx] += alpha * (
            reward + gamma * np.max(Q[next_s[0], next_s[1]]) - Q[state[0], state[1], action_idx]
        )

        state = next_s
        if maze[state[0], state[1]] == 1:
            done = True

print("✅ 训练完成！")

# 5️⃣ 查看学到的路径
state = (2, 0)
path = [state]

while maze[state[0], state[1]] != 1:
    action_idx = np.argmax(Q[state[0], state[1]])
    next_s = next_state(state, actions[action_idx])
    if not is_valid(next_s) or next_s in path:
        break
    state = next_s
    path.append(state)

print("🗺️ 学到的路径:", path)

五、运行结果

运行上面的代码后，你会看到类似输出：


✅ 训练完成！
🗺️ 学到的路径: [(2, 0), (2, 1), (2, 2), (1, 2), (0, 2), (0, 3), (0, 4)]

这说明智能体成功学会了走出迷宫 🎯

六、总结

强化学习使机器能够通过反馈学习最优策略，这类似于人类通过经验学习的方式。 Q-Learning 是许多现代强化学习算法的基础，包括深度 Q 网络（Deep Q-Networks, DQN）。这个简单的示例展示了完整的强化学习循环：探索 → 反馈 → 改进。

Q 表：保存每个状态-动作的价值
ε-greedy 策略：平衡探索与利用
奖励函数设计：引导智能体形成目标导向行为
强化学习思想：通过试错和奖励反馈不断改进策略

强化学习的魅力在于，它不需要显式答案，而是让机器自己“摸索”出最优策略。你可以在此基础上继续扩展，比如加入 matplotlib 动画可视化 或使用 神经网络（Deep Q-Learning） 解决更复杂的任务。英文：How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained

归纳法对世界的改造

落园

Liyun

2025年1月20日 05:20

从简单的统计模型，到后面的计量经济学，到机器学习，到现在的人工智能，过去的二十年是归纳法大发展的二十年。为什么只看二十年呢，因为二十年前的园主不知世事，超出认知范围之外了。

经济学在大规模应用计量经济学之前，一直是和物理学神似的，也被叫做社会科学中的物理学。而计量经济学的发展与突破也不是纯属巧合，主要是大规模经济金融数据的爆发。

早期的计量经济学，无论是宏观还是微观，其实都还是有深深的“结构化”的影子，就是需要一个结构化的模型来解释为什么会这样，有一堆变量和与之相对的系数，然后再用数据来估计系数。现在回头看，这个时期的计量经济学还是停留在一个“辅助”的阶段，数据的价值只是帮助计算系数。

然后计量经济学就向着弱结构化的方向一去不复返。可以说这是理论的发展赶不上数据的爆发，也可以说是人们渐渐失去了对结构化的理论的执念。这大概等同于量子力学之于传统物理学的革命，人们开始接受这个结构的模糊化。可就算是在这个阶段，人们的执念还是“因果关系”，直到今日计量经济学还是把因果推断作为其存在的哲学本源，试图从归纳法的角度倒推演绎法需要的因果关系。

然后随着机器学习的大爆发，人们从开始的“预测”和“因果推断”是两回事，到逐渐的审问自己，为什么对因果有这么强烈的执念？退一步说，到底什么是因果关系？这个时候才发现，因果关系其实在哲学上的定义也不是那么得清晰。园主在这里就不挖太深了，否则填因果这个坑就要填好久。

这些年，随着大语言模型的爆发，人工智能好像又解锁了一个新的阶段。虽然一边说着大语言就是一个预测方向无意的突破，另一边园主却看到人工智能落地层面对于结构化关系的依赖性慢慢减弱。以前我们的解决办法是对一个问题不断地细分梳理，然后逐个攻破。而现在大模型的冲击就是，我们真的有必要这样分解问题本身吗？如果深度学习模型本身可以就自动学出来一个等同于以前结构化的东西，就算我们没有办法把它明确的表达出来，哪又如何呢？

到这里，深度学习无疑是冲击到一个哲学层面的问题。当数据远远超过了理论的发展的时候，是不是演绎法的价值就远远不及归纳了？我们是像以前那样路径依赖，一定要对问题做一个外科手术一样精准的分解，还是可以容忍结构慢慢演变成一个黑盒子，给它无尽的自适应的能力，然后只需要关注结果就可以了？

这一波深度学习对于人工智能的冲击，我觉得体现到最后，其实可能是一个去结构化的冲击。我们选择放弃对于结构关系的清晰表述，然后拥抱强化的预测能力对于世界的适应和改造。

人们对于深度学习和大模型的恐惧在于我们无法解释、进而无法控制。一旦我们适应和接受，下一步就是挖掘其无尽的潜力，实现下一轮生产力的爆发。

无论如何，我还是看好科技发展与世界进步的，就算过程中会有无尽的波折。

四火的唠叨
初涉 ML Workflow 系统：Kubeflow Pipelines、Flyte 和 Metaflow 2025年5月19日 07:18

初涉 ML Workflow 系统：Kubeflow Pipelines、Flyte 和 Metaflow

四火的唠叨

四火

2025年5月19日 07:18

入职 Coupang 两个月了，第一个月主要上手和开发 BOS（Business Operating System）系统，第二个月开始调研选型 ML Workflow 平台。前者目前来说相对比较简单，后者对我来说是一个新坑，也比较有意思，随便写写技术上的体会。

先扯点题外话，其实这次求职有几个比较符合我预期的机会，可在思考之后，我基本上毫不犹豫就选择了 Coupang 这一家。最主要的原因，并非因为雇主，而是因为要做的事情。一个相当规模的团队，在大干一场的早期阶段，要在搭建起属于自己相当规模的 AI infra 来。

我觉得软件行业的巨大的变革，新世纪以来就三次，第一次是互联网应用的崛起，我太小没能做啥；一次是十几年前的 cloud，看着它从爆发式增长到如同水和电一样进入我们的生活，可我算是错过了它比较早期的阶段，即便相当长的时间内我在 Amazon，但是我却并不在 AWS；而这一次，当 AI 的浪潮再来的时候，我就很想行动起来，真正投身其中。程序员的一生能有几个赶这样大潮的机会呢，我不想再错过了。虽说我没有 AI 的技术背景，但我知道 ML infra 到 AI infra 却是个我可以切入的角度——从我最初接触软件开始，尤其是学习全栈技术的时期开始，我就认定，技术是相通的，这十几年来我一直在如此实践。因此在调查和思考之后，我觉得这是一个我不想错过，并且更重要的是自认为能够抓住的机会。

当然，就此打住，我目前只是这个领域的初学者，因此理解并不深入。

Why ML Workflow?

接着说正题，在这一个月之前，虽然我经历过不少关于 workflow 的团队，虽然我参与过从零写完整的 workflow 引擎，但这些都是针对于通用 workflow 而言的，我对于机器学习的工作流，也就是 ML workflow 可以说一无所知。于是在问题和需求调查的过程中，第一个关于它的问题就自然而然出现了，我们是否真的需要 ML workflow，而不是通用的 workflow 系统？

其实，这主要还是由于 ML 的生态所决定的。通用 workflow 可以完成很多的事情，但是在机器学习到 AI 的领域内，这个过程中最主要的目的就是把 raw data 给转换成经过训练和验证的 model，其中有很多部分都是有固定模式，因而自成体系的。举例来说：

ML workflow 关注数据处理和 ML 或者 AI model 的生命周期，但是通用的 workflow 往往关注将业务流程自动化；
ML workflow 需要将 artifact 管理、model registry、model insights 和 experiment tracking 等工具集成起来，但是通用的 workflow 往往是业务 application 层面的集成；
ML workflow 执行的 task 往往需要高 GPU 使用和高内存，这和通常我们讨论的 workflow 的 task 对于 CPU 的使用完全不同。

总之，ML workflow 更像是一个 workflow 中的重要分支，它的特异性显著，因而从架构上它有很多在我们谈论通常 workflow 的时候不太涉及的特点，并且它们具有明显的共性。

ML Workflow 的固定套路

Workflow 这样的系统，和很多 infra 系统不同的地方在于，它具有全栈的特性，需要从端到端从用户完整的 use case 去思考。回想起通用的 workflow，我们会想，用户会去怎样定义一个 Workflow，怎样运行和测试它，并且怎样部署到线上跑起来。这其中的前半部分就是 development experience，而后半部分则是 deployment experience。

首先，对于 development experience 这个角度，ML workflow 有它独特的地方，其中最主要的就是 Python SDK。

通用 workflow 我们讲定义一个新的 workflow 的时候，我们通常都需要写一个 DSL，里面定义了一大堆 task 和依赖关系，而对于做得比较好的 workflow 系统来说，可能还需要一个可视化的 drag-and-drop 界面来方便地创建 workflow。

但是对于 ML workflow 来说，它最特殊之处是对于 Python code 的无缝集成。因为 Python 之于 ML 的地位就像是 Java 之于企业架构的地位，任何一个 ML workflow 客户端首先要考虑支持的编程语言就是 Python，用户通过往大了说是 SDK，而往小了说则是简单的 Python decorators，就可以定义 task 和 workflow。比方说，一个简单的 Flyte 的 hello world：

from flytekit import task, workflow

@task
def say_hello(name: str) -> str:
    return f"Hello, {name}!"


@workflow
def hello_workflow(name: str = "World") -> str:
    return say_hello(name=name)

在 ML workflow 的世界中，这是除了 DSL 和视图化之外的第三种定义 workflow 和 task 的方式，也是必须具备的方式。

第二个，对于 deployment experience 的角度，大致上是基于 Kubernetes 从 control plane 到 data plane 固定的交互机制。

我不知道这是不是一种关于 ML workflow 的约定俗成，但是通过调研 Kubeflow Pipelines、Flyte 和 Metaflow，我发现这三种对于 control plane 到 data plane 的交互模式是出乎意料地一致。

KubeFlow Pipelines: client [KFP SDK] -> control plane [API Server -> K8s APIs (CRD changes) -> Workflow Controller / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]
Flyte: client [Flyte SDK] -> control plane [Flyte Admin -> K8s APIs (CRD changes) -> Flyte Propeller / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]
Metaflow: client [Metaflow SDK] -> control plane [Metaflow Service -> K8s APIs (CRD changes) -> Metaflow Scheduler / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]

注：也有把 Operator 那一层归为 data plane 的，我觉得都说得过去。

其中 Metaflow 说的是使用 Kubernetes 集成的情况，因为它并不是非得依赖于 Kubernetes。

但大多数使用都是基于 Kubernetes 的，而且基本上都是这个套路，control plane 的 service 收到请求以后，通过创建 K8s CRD objects 的方式告知 workflow controller（scheduler）来执行 workflow，对于 task 的执行通过调用 data plane 的 K8s API 来创建 task pods 执行。

对于特殊的 task，需要交由特殊的 K8s operator 来执行，那么这个 “交由” 的过程，也是通过 K8s 这一层的 CRD change 来实现——Propeller 负责创建 CRD，而对应的 operator 负责 monitor 相应的 CRD 改变并相应地执行任务。Propeller 和 operator 二者互相并不知道对方的存在。这种方式对于保证 operator 的重用性和跨 workflow 系统的统一性简直是太棒的设计了，我们在 try out 的时候，就让 Kubeflow Pipelines 系统中的 operator，去执行 Flyte 给创建的 PTJob 和 TFJob。

关于架构，我觉得 Flyte 的这张架构图对于 components 层次的划分说得非常清楚，下面的 control plane 和 data plane 是可以有属于自己的 cluster 的，不过值得说明的是，真正最终执行的 task pods，也就是图中的最下面的 K8s Pod，也是可以放在另外的 cluster 上，由远程的 K8s API 调用触发的，这样就可以带来更多一层的灵活性：

[Update on 5/31] 后来看到这篇非常好的分享《Flyte School: Flyte Architecture Deep Dive》，对于初步了解的工程师来说，推荐观看。下图也来自于它。

ML Workflow 的特性比较

再来比较这三个 workflow 的优劣，我并不打算列全，而是简单说说自己印象最深的几点：

Kubeflow Pipelines 基本上有着最大的社区，因此它相对比较成熟，有自带的基于 CRD 的 K8s-native 的集成，因此可以直接跑 TensorFlow job 和 PyTorch job 之类的；UI 功能也比较强大，可以通过 drag-and-drop 来定制 workflow，也支持 yaml 文件创建 workflow。
Flyte 最吸引人的是它的 Strong Typing，很多错误能够在编译期本地就能够发现（Kubeflow pipelines 和 Metaflow 都只是 hints）；开发过程中，本地直接就能跑，而不需要什么 container；对于 multi-tenancy 支持得最好（比如 RBAC 和 tenant 的 Quota 机制）。
Metaflow 的 setup 特别简单，而且本地可以直接调试；它对于 AWS 的一些 service 直接可以集成使用，特别方便（比如 Step Functions）；Kubernetes 并不是一个依赖，也可以跑在 VM 上等等。

在我把这三者全部在 EKS 上搭了一遍并使用了一圈，也仔仔细细对别了特种特性和优劣之后，我对于 Flyte 的特性比较感兴趣，我觉得它们对我们团队也比较有用。

具体来说，很多区别但最重要的是两个：一个是 strong typing，其它两个都只支持 Python 类型的 hints，就这一点上，和一些 ML engineer 也讨论过，把问题发现在本地，是非常吸引人的；再一个是 multi-tenancy，对其 Flyte 有很多原生的特性支持，在平台完成之后，我们希望把平台上 ML 的能力开放出去，因此这是很重要的一个特性。此外，我也在考虑对于一个 control plane + 多个 data plane 这种 use case 的情况，这部分的需求还比较模糊，但是 Flyte 依然是这方面支持特性相对比较多的一个。

无论最后的结论为何，我希望我们能够比较灵活地部署选中的这个 ML workflow system，比方说，在 CLI 上，我们考虑在更高维度建立出一层，用户使用同样的命令，无论下面执行的 workflow 系统是什么，都不需要改变，这样一来，等到未来如果我们需要支持第二个，应该能够比较容易地整合进去。

《四火的唠叨》文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接

你可能也喜欢看：

LiuShen
PaddleYOLO训练自己的数据集 2025年4月8日 15:27

PaddleYOLO训练自己的数据集

LiuShen

2025年4月8日 15:27

近期一直在研究毕业设计，在其中，我涉及到了PaddleYOLO的训练和部署，在网上的教程较少，经过不断努力，我也算是跑出来了，所以在这里分享出来做个记录，防止下次使用又忘记了怎么搞。

普通视图