用 Python 学强化学习: Q-Learning 迷宫示例

2025年11月12日 19:42

[caption id="attachment_70386" align="alignnone" width="2017"] Q Learning强化学习算法(机器学习/人工智能)[/caption] 强化学习（Reinforcement Learning, RL）是一种让智能体/Agent通过与环境交互、试错学习来获得最优行为策略的机器学习方法。本文用一个简单的 Q-learning 迷宫示例，帮助你快速理解强化学习的基本原理。

强化学习入门：从试错中学习的艺术 Reinforcement Learning 101: The Art of Learning by Trial and Error 深度解析强化学习：Q-Learning算法详解 Deep Dive into Reinforcement Learning: Understanding the Q-Learning Algorithm 机器如何学会自己做决定？强化学习告诉你答案 How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained 从奖励中学习：人工智能的“试错智慧” Learning from Rewards: The Trial-and-Error Intelligence Behind AI

一、什么是强化学习？

强化学习的世界中包含五个关键要素：

Agent（智能体）：做决策、执行动作的主体
Environment（环境）：智能体所处的世界
State（状态）：当前环境的描述
Action（动作）：智能体可采取的操作
Reward（奖励）：环境反馈，用来衡量动作的好坏

智能体的目标是学习一个策略 π(a|s)，让它在每个状态下选择最优动作，从而获得最大的累积奖励。 [math]J(\pi) = \mathbb{E}\pi \left[ \sum{t=0}^{\infty} \gamma^t r_t \right][/math] 其中 [math]\gamma[/math]（0 ≤ [math]\gamma[/math] ≤ 1）是折扣因子，用于衡量未来奖励相对于即时奖励的重要程度。

二、Q-Learning 原理

Q-learning 是最经典的强化学习算法之一。它通过学习一个 Q 表（Q-table）来记录每个“状态-动作”对的价值。更新公式如下：


[math] Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s,a)] [/math]

其中：

[math] \alpha [/math]：学习率（Learning Rate）
[math] \gamma [/math]：折扣因子（Discount Factor）
[math] r [/math]：奖励（Reward）
[math] s' [/math]：下一状态（Next State）

三、迷宫环境设计

定义一个 3×5 的迷宫：

0：空地
-1：墙
1：出口（目标）

四、完整 Python 实现代码


import numpy as np
import random

# 1️⃣ 定义迷宫
maze = np.array([
    [0,  0,  0, -1,  1],
    [0, -1,  0, -1,  0],
    [0,  0,  0,  0,  0]
])

n_rows, n_cols = maze.shape
actions = ['up', 'down', 'left', 'right']
Q = np.zeros((n_rows, n_cols, len(actions)))

# 2️⃣ 超参数
alpha = 0.1
gamma = 0.9
epsilon = 0.1
episodes = 500

# 3️⃣ 辅助函数
def is_valid(state):
    r, c = state
    return 0 <= r < n_rows and 0 <= c < n_cols and maze[r, c] != -1

def next_state(state, action):
    r, c = state
    if action == 'up': r -= 1
    elif action == 'down': r += 1
    elif action == 'left': c -= 1
    elif action == 'right': c += 1
    return (r, c)

def get_reward(state):
    r, c = state
    if maze[r, c] == 1: return 10
    elif maze[r, c] == -1: return -1
    return -0.1

# 4️⃣ 训练循环
for episode in range(episodes):
    state = (2, 0)
    done = False

    while not done:
        if random.uniform(0, 1) < epsilon:
            action_idx = random.randint(0, len(actions)-1)
        else:
            action_idx = np.argmax(Q[state[0], state[1]])

        action = actions[action_idx]
        next_s = next_state(state, action)

        if not is_valid(next_s):
            reward = -1
            next_s = state
        else:
            reward = get_reward(next_s)

        Q[state[0], state[1], action_idx] += alpha * (
            reward + gamma * np.max(Q[next_s[0], next_s[1]]) - Q[state[0], state[1], action_idx]
        )

        state = next_s
        if maze[state[0], state[1]] == 1:
            done = True

print("✅ 训练完成！")

# 5️⃣ 查看学到的路径
state = (2, 0)
path = [state]

while maze[state[0], state[1]] != 1:
    action_idx = np.argmax(Q[state[0], state[1]])
    next_s = next_state(state, actions[action_idx])
    if not is_valid(next_s) or next_s in path:
        break
    state = next_s
    path.append(state)

print("🗺️ 学到的路径:", path)

五、运行结果

运行上面的代码后，你会看到类似输出：


✅ 训练完成！
🗺️ 学到的路径: [(2, 0), (2, 1), (2, 2), (1, 2), (0, 2), (0, 3), (0, 4)]

这说明智能体成功学会了走出迷宫 🎯

六、总结

强化学习使机器能够通过反馈学习最优策略，这类似于人类通过经验学习的方式。 Q-Learning 是许多现代强化学习算法的基础，包括深度 Q 网络（Deep Q-Networks, DQN）。这个简单的示例展示了完整的强化学习循环：探索 → 反馈 → 改进。

Q 表：保存每个状态-动作的价值
ε-greedy 策略：平衡探索与利用
奖励函数设计：引导智能体形成目标导向行为
强化学习思想：通过试错和奖励反馈不断改进策略

强化学习的魅力在于，它不需要显式答案，而是让机器自己“摸索”出最优策略。你可以在此基础上继续扩展，比如加入 matplotlib 动画可视化 或使用 神经网络（Deep Q-Learning） 解决更复杂的任务。英文：How Do Machines Learn to Make Their Own Decisions? Reinforcement Learning Explained

智能手机 HTC One M9 使用测评虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
按揭贷款(房贷,车贷) 每月还贷计算器去年给银行借了17万英镑买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定是比较常用的. 简单来说就是每个月交的钱是...
第一次私校家长会: 原来家长比孩子还卷前几天参加了娃的第一次家长会，和几位家长聊下来，真是个个都很厉害。不光孩子们卷，家长也一样卷，一眼望去基本都是 Dr/博士。娃还调侃我一句：“这有什么的，你不也是 Dr 吗？” 我心里默默想：还好没写学校名字，不然我这野鸡大学的头衔真拿不出手 😂。私校里真是人才济济，乐器过 8 级的太常见了，卷得不得了。我还问过娃，是想当 big fish in a small pond...
给孩子第一台NUC小电脑 Next Unit of Computing Next Unit of Computing (NUC) is a line of small-form-factor computers...
和媳妇约个会: 剑桥的过桥米线 Dumpling Trees Dumpling Trees 是位于剑桥 Cherry Hilton 附近的一家中式餐厅，以云南特色的过桥米线闻名。店内环境宽敞整洁，菜品丰富，除了经典的米线，还有各类小吃、烧烤和炒饭，味道地道，分量十足。过桥米线的汤底鲜香，配料新鲜，包括鸡肉、鱿鱼、虾等食材，顾客可以自己下锅涮熟，既好吃又有趣。餐厅提供免费停车，但需在店内登记车牌，适合家庭聚餐或周末小聚。剑桥 Cherry Hilton 那边有一家叫 Dumpling Trees 的过桥米线店，两三年前的冬天我们去吃过一次（剑桥 Dumpling Tree...
微信PC端程序占用了1.39 TB的空间! 快速清理微信占用空间前两天我的 C 盘剩余空间突然变红了，我随手一查，竟然发现微信 PC 端程序居然占用了 1.39 TB 的空间，简直不可思议。在手机上，微信同样是名列前茅的“吞空间大户”，在设置 → 通用 → 手机存储空间里几乎稳居第一。更离谱的是，这些空间大多并不是因为聊天记录，而是各种缓存文件、视频、图片和被动接收的文件所堆积起来的。平时我们只是点开看一眼，就算没保存下来，微信也会悄悄把它们留在本地，占据大量磁盘。尤其是群聊里转发的视频和文件，日积月累就成了一个“隐形黑洞”。...
C++的左值/lvalue, 右值/rvalue和右值引用/rvalue references C++ 左值（lvalue）、右值（rvalue）与右值引用（rvalue reference）理解 C++ 中的左值、右值及其引用形式，是掌握现代 C++（尤其是 C++11 以后的移动语义/move和完美转发/perfect forwarding）必不可少的基础。 📌 什么是左值（lvalue）左值指的是有名字、可寻址的对象，通常可以出现在赋值语句的左侧。 int x...
比特币最近波动有点大: 一天牛市一天熊比特币10万美金以内都是最后上车的机会！比特币近期的价格波动可以归因于多个关键因素，包括地缘政治动态、监管变化以及加密行业内的重大安全事件。其中一个主要影响因素是美国前总统唐纳德·特朗普对乌克兰和加密货币监管的立场变化。据报道，特朗普再次当选，他可能会推动减少美国对乌克兰的支持，这可能会影响全球金融市场和风险偏好。同时，特朗普正在将自己塑造为亲加密货币的候选人，表示有意让美国成为一个更加友好的加密货币环境。这一立场引发了市场对监管政策可能发生变化的猜测，导致市场情绪在乐观和不确定性之间波动。特朗普对俄乌战争的态度美国第43届总统唐纳德·特朗普已经在2025年1月当选并正式上任（第二次），那么他的政策可能会对比特币价格的波动产生更加直接和显著的影响。他政府对乌克兰和加密货币监管的立场已经不再是猜测，而是正在实际塑造市场的关键力量。特朗普（Donald Trump）减少美国对乌克兰的支持，全球投资者可能会预期地缘政治稳定性发生变化，从而增加对比特币作为避险资产的需求。同时，他的亲加密货币立场可能正在推动市场的乐观情绪。如果他的政府推出有利于加密行业的监管政策，例如明确的合规指南或减少监管审查，可能会吸引更多机构投资者进入市场，并促进更广泛的加密货币采用。然而，政策的快速变化也可能导致短期市场剧烈波动，因为市场需要时间来消化新的政策动向。朝鲜黑客盗取Bybit交易所15亿美元的ETH 另一个显著影响比特币价格的事件是近期涉及朝鲜黑客组织“Lazarus”的15亿美元以太坊被盗案件。据报道，Bybit交易所（全球第二）这些被盗的ETH已经被清洗，此次大规模黑客攻击引发了人们对加密行业安全性的担忧。此类安全事件不仅会削弱投资者信心，还可能引发更严格的监管审查，导致短期市场动荡。此外，被盗资金的大规模流动和出售可能对市场流动性造成冲击，进一步加大价格波动。随着这些事件的持续发酵，比特币价格正受到政治决策、监管预期以及安全挑战等多重因素的影响。与此同时，与朝鲜黑客组织 Lazarus 相关的 15 亿美元以太坊被盗事件仍在影响加密市场。由于这些被盗 ETH 已被清洗，人们对加密行业安全漏洞的担忧持续存在，同时也可能引发更严格的监管审查。政治、监管和安全等多重因素交织在一起，共同导致了比特币近期的剧烈价格波动。...

归纳法对世界的改造

落园

Liyun

2025年1月20日 05:20

从简单的统计模型，到后面的计量经济学，到机器学习，到现在的人工智能，过去的二十年是归纳法大发展的二十年。为什么只看二十年呢，因为二十年前的园主不知世事，超出认知范围之外了。

经济学在大规模应用计量经济学之前，一直是和物理学神似的，也被叫做社会科学中的物理学。而计量经济学的发展与突破也不是纯属巧合，主要是大规模经济金融数据的爆发。

早期的计量经济学，无论是宏观还是微观，其实都还是有深深的“结构化”的影子，就是需要一个结构化的模型来解释为什么会这样，有一堆变量和与之相对的系数，然后再用数据来估计系数。现在回头看，这个时期的计量经济学还是停留在一个“辅助”的阶段，数据的价值只是帮助计算系数。

然后计量经济学就向着弱结构化的方向一去不复返。可以说这是理论的发展赶不上数据的爆发，也可以说是人们渐渐失去了对结构化的理论的执念。这大概等同于量子力学之于传统物理学的革命，人们开始接受这个结构的模糊化。可就算是在这个阶段，人们的执念还是“因果关系”，直到今日计量经济学还是把因果推断作为其存在的哲学本源，试图从归纳法的角度倒推演绎法需要的因果关系。

然后随着机器学习的大爆发，人们从开始的“预测”和“因果推断”是两回事，到逐渐的审问自己，为什么对因果有这么强烈的执念？退一步说，到底什么是因果关系？这个时候才发现，因果关系其实在哲学上的定义也不是那么得清晰。园主在这里就不挖太深了，否则填因果这个坑就要填好久。

这些年，随着大语言模型的爆发，人工智能好像又解锁了一个新的阶段。虽然一边说着大语言就是一个预测方向无意的突破，另一边园主却看到人工智能落地层面对于结构化关系的依赖性慢慢减弱。以前我们的解决办法是对一个问题不断地细分梳理，然后逐个攻破。而现在大模型的冲击就是，我们真的有必要这样分解问题本身吗？如果深度学习模型本身可以就自动学出来一个等同于以前结构化的东西，就算我们没有办法把它明确的表达出来，哪又如何呢？

到这里，深度学习无疑是冲击到一个哲学层面的问题。当数据远远超过了理论的发展的时候，是不是演绎法的价值就远远不及归纳了？我们是像以前那样路径依赖，一定要对问题做一个外科手术一样精准的分解，还是可以容忍结构慢慢演变成一个黑盒子，给它无尽的自适应的能力，然后只需要关注结果就可以了？

这一波深度学习对于人工智能的冲击，我觉得体现到最后，其实可能是一个去结构化的冲击。我们选择放弃对于结构关系的清晰表述，然后拥抱强化的预测能力对于世界的适应和改造。

人们对于深度学习和大模型的恐惧在于我们无法解释、进而无法控制。一旦我们适应和接受，下一步就是挖掘其无尽的潜力，实现下一轮生产力的爆发。

无论如何，我还是看好科技发展与世界进步的，就算过程中会有无尽的波折。

初涉 ML Workflow 系统：Kubeflow Pipelines、Flyte 和 Metaflow

四火的唠叨

四火

2025年5月19日 07:18

入职 Coupang 两个月了，第一个月主要上手和开发 BOS（Business Operating System）系统，第二个月开始调研选型 ML Workflow 平台。前者目前来说相对比较简单，后者对我来说是一个新坑，也比较有意思，随便写写技术上的体会。

先扯点题外话，其实这次求职有几个比较符合我预期的机会，可在思考之后，我基本上毫不犹豫就选择了 Coupang 这一家。最主要的原因，并非因为雇主，而是因为要做的事情。一个相当规模的团队，在大干一场的早期阶段，要在搭建起属于自己相当规模的 AI infra 来。

我觉得软件行业的巨大的变革，新世纪以来就三次，第一次是互联网应用的崛起，我太小没能做啥；一次是十几年前的 cloud，看着它从爆发式增长到如同水和电一样进入我们的生活，可我算是错过了它比较早期的阶段，即便相当长的时间内我在 Amazon，但是我却并不在 AWS；而这一次，当 AI 的浪潮再来的时候，我就很想行动起来，真正投身其中。程序员的一生能有几个赶这样大潮的机会呢，我不想再错过了。虽说我没有 AI 的技术背景，但我知道 ML infra 到 AI infra 却是个我可以切入的角度——从我最初接触软件开始，尤其是学习全栈技术的时期开始，我就认定，技术是相通的，这十几年来我一直在如此实践。因此在调查和思考之后，我觉得这是一个我不想错过，并且更重要的是自认为能够抓住的机会。

当然，就此打住，我目前只是这个领域的初学者，因此理解并不深入。

Why ML Workflow?

接着说正题，在这一个月之前，虽然我经历过不少关于 workflow 的团队，虽然我参与过从零写完整的 workflow 引擎，但这些都是针对于通用 workflow 而言的，我对于机器学习的工作流，也就是 ML workflow 可以说一无所知。于是在问题和需求调查的过程中，第一个关于它的问题就自然而然出现了，我们是否真的需要 ML workflow，而不是通用的 workflow 系统？

其实，这主要还是由于 ML 的生态所决定的。通用 workflow 可以完成很多的事情，但是在机器学习到 AI 的领域内，这个过程中最主要的目的就是把 raw data 给转换成经过训练和验证的 model，其中有很多部分都是有固定模式，因而自成体系的。举例来说：

ML workflow 关注数据处理和 ML 或者 AI model 的生命周期，但是通用的 workflow 往往关注将业务流程自动化；
ML workflow 需要将 artifact 管理、model registry、model insights 和 experiment tracking 等工具集成起来，但是通用的 workflow 往往是业务 application 层面的集成；
ML workflow 执行的 task 往往需要高 GPU 使用和高内存，这和通常我们讨论的 workflow 的 task 对于 CPU 的使用完全不同。

总之，ML workflow 更像是一个 workflow 中的重要分支，它的特异性显著，因而从架构上它有很多在我们谈论通常 workflow 的时候不太涉及的特点，并且它们具有明显的共性。

ML Workflow 的固定套路

Workflow 这样的系统，和很多 infra 系统不同的地方在于，它具有全栈的特性，需要从端到端从用户完整的 use case 去思考。回想起通用的 workflow，我们会想，用户会去怎样定义一个 Workflow，怎样运行和测试它，并且怎样部署到线上跑起来。这其中的前半部分就是 development experience，而后半部分则是 deployment experience。

首先，对于 development experience 这个角度，ML workflow 有它独特的地方，其中最主要的就是 Python SDK。

通用 workflow 我们讲定义一个新的 workflow 的时候，我们通常都需要写一个 DSL，里面定义了一大堆 task 和依赖关系，而对于做得比较好的 workflow 系统来说，可能还需要一个可视化的 drag-and-drop 界面来方便地创建 workflow。

但是对于 ML workflow 来说，它最特殊之处是对于 Python code 的无缝集成。因为 Python 之于 ML 的地位就像是 Java 之于企业架构的地位，任何一个 ML workflow 客户端首先要考虑支持的编程语言就是 Python，用户通过往大了说是 SDK，而往小了说则是简单的 Python decorators，就可以定义 task 和 workflow。比方说，一个简单的 Flyte 的 hello world：

from flytekit import task, workflow

@task
def say_hello(name: str) -> str:
    return f"Hello, {name}!"


@workflow
def hello_workflow(name: str = "World") -> str:
    return say_hello(name=name)

在 ML workflow 的世界中，这是除了 DSL 和视图化之外的第三种定义 workflow 和 task 的方式，也是必须具备的方式。

第二个，对于 deployment experience 的角度，大致上是基于 Kubernetes 从 control plane 到 data plane 固定的交互机制。

我不知道这是不是一种关于 ML workflow 的约定俗成，但是通过调研 Kubeflow Pipelines、Flyte 和 Metaflow，我发现这三种对于 control plane 到 data plane 的交互模式是出乎意料地一致。

KubeFlow Pipelines: client [KFP SDK] -> control plane [API Server -> K8s APIs (CRD changes) -> Workflow Controller / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]
Flyte: client [Flyte SDK] -> control plane [Flyte Admin -> K8s APIs (CRD changes) -> Flyte Propeller / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]
Metaflow: client [Metaflow SDK] -> control plane [Metaflow Service -> K8s APIs (CRD changes) -> Metaflow Scheduler / K8s Operator] -> data plane [K8s API -> creating Task Pods -> blob storage]

注：也有把 Operator 那一层归为 data plane 的，我觉得都说得过去。

其中 Metaflow 说的是使用 Kubernetes 集成的情况，因为它并不是非得依赖于 Kubernetes。

但大多数使用都是基于 Kubernetes 的，而且基本上都是这个套路，control plane 的 service 收到请求以后，通过创建 K8s CRD objects 的方式告知 workflow controller（scheduler）来执行 workflow，对于 task 的执行通过调用 data plane 的 K8s API 来创建 task pods 执行。

对于特殊的 task，需要交由特殊的 K8s operator 来执行，那么这个 “交由” 的过程，也是通过 K8s 这一层的 CRD change 来实现——Propeller 负责创建 CRD，而对应的 operator 负责 monitor 相应的 CRD 改变并相应地执行任务。Propeller 和 operator 二者互相并不知道对方的存在。这种方式对于保证 operator 的重用性和跨 workflow 系统的统一性简直是太棒的设计了，我们在 try out 的时候，就让 Kubeflow Pipelines 系统中的 operator，去执行 Flyte 给创建的 PTJob 和 TFJob。

关于架构，我觉得 Flyte 的这张架构图对于 components 层次的划分说得非常清楚，下面的 control plane 和 data plane 是可以有属于自己的 cluster 的，不过值得说明的是，真正最终执行的 task pods，也就是图中的最下面的 K8s Pod，也是可以放在另外的 cluster 上，由远程的 K8s API 调用触发的，这样就可以带来更多一层的灵活性：

[Update on 5/31] 后来看到这篇非常好的分享《Flyte School: Flyte Architecture Deep Dive》，对于初步了解的工程师来说，推荐观看。下图也来自于它。

ML Workflow 的特性比较

再来比较这三个 workflow 的优劣，我并不打算列全，而是简单说说自己印象最深的几点：

Kubeflow Pipelines 基本上有着最大的社区，因此它相对比较成熟，有自带的基于 CRD 的 K8s-native 的集成，因此可以直接跑 TensorFlow job 和 PyTorch job 之类的；UI 功能也比较强大，可以通过 drag-and-drop 来定制 workflow，也支持 yaml 文件创建 workflow。
Flyte 最吸引人的是它的 Strong Typing，很多错误能够在编译期本地就能够发现（Kubeflow pipelines 和 Metaflow 都只是 hints）；开发过程中，本地直接就能跑，而不需要什么 container；对于 multi-tenancy 支持得最好（比如 RBAC 和 tenant 的 Quota 机制）。
Metaflow 的 setup 特别简单，而且本地可以直接调试；它对于 AWS 的一些 service 直接可以集成使用，特别方便（比如 Step Functions）；Kubernetes 并不是一个依赖，也可以跑在 VM 上等等。

在我把这三者全部在 EKS 上搭了一遍并使用了一圈，也仔仔细细对别了特种特性和优劣之后，我对于 Flyte 的特性比较感兴趣，我觉得它们对我们团队也比较有用。

具体来说，很多区别但最重要的是两个：一个是 strong typing，其它两个都只支持 Python 类型的 hints，就这一点上，和一些 ML engineer 也讨论过，把问题发现在本地，是非常吸引人的；再一个是 multi-tenancy，对其 Flyte 有很多原生的特性支持，在平台完成之后，我们希望把平台上 ML 的能力开放出去，因此这是很重要的一个特性。此外，我也在考虑对于一个 control plane + 多个 data plane 这种 use case 的情况，这部分的需求还比较模糊，但是 Flyte 依然是这方面支持特性相对比较多的一个。

无论最后的结论为何，我希望我们能够比较灵活地部署选中的这个 ML workflow system，比方说，在 CLI 上，我们考虑在更高维度建立出一层，用户使用同样的命令，无论下面执行的 workflow 系统是什么，都不需要改变，这样一来，等到未来如果我们需要支持第二个，应该能够比较容易地整合进去。

《四火的唠叨》文章未经特殊标明皆为本人原创，未经许可不得用于任何商业用途，转载请保持完整性并注明来源链接

你可能也喜欢看：

PaddleYOLO训练自己的数据集

LiuShen

2025年4月8日 15:27

近期一直在研究毕业设计，在其中，我涉及到了PaddleYOLO的训练和部署，在网上的教程较少，经过不断努力，我也算是跑出来了，所以在这里分享出来做个记录，防止下次使用又忘记了怎么搞。

阅读视图