Q学习

机器学习与数据挖掘

范式监督学习無監督學習線上機器學習元学习（英语：Meta-learning (computer science)）半监督学习自监督学习强化学习基于规则的机器学习（英语：Rule-based machine learning）量子機器學習
问题统计分类生成模型迴歸分析聚类分析降维密度估计（英语：density estimation）异常检测数据清洗自动机器学习关联规则学习語意分析结构预测（英语：Structured prediction）特征工程表征学习排序学习（英语：Learning to rank）语法归纳（英语：Grammar induction）本体学习（英语：Ontology learning）多模态学习（英语：Multimodal learning）
监督学习 (分类 · 回归) 学徒学习（英语：Apprenticeship learning）决策树学习集成学习 Bagging 提升方法随机森林 k-NN 線性回歸朴素贝叶斯人工神经网络邏輯斯諦迴歸感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法（英语：CURE algorithm）层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移（英语：Mean shift）
降维因素分析 CCA ICA LDA NMF（英语：Non-negative matrix factorization） PCA PGD（英语：Proper generalized decomposition） t-SNE（英语：t-distributed stochastic neighbor embedding） SDL
结构预测（英语：Structured prediction）圖模式貝氏網路條件隨機域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子（英语：Local outlier factor）孤立森林（英语：Isolation forest）
人工神经网络自编码器認知計算深度学习 DeepDream（英语：DeepDream）多层感知器 RNN LSTM GRU（英语：Gated recurrent unit） ESN（英语：Echo state network）储备池计算（英语：reservoir computing）受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision transforme（英语：Vision transformer）脉冲神经网络（英语：Spiking neural network） Memtransistor（英语：Memtransistor）电化学RAM（英语：Electrochemical RAM）（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体（英语：Multi-agent reinforcement learning） Self-play（英语：Self-play (reinforcement learning technique)） RLHF
与人类学习主动学习（英语：Active learning (machine learning)）众包 Human-in-the-loop（英语：Human-in-the-loop）
模型诊断学习曲线（英语：Learning curve (machine learning)）
数学基础内核机器（英语：Kernel machines）偏差–方差困境（英语：Bias–variance tradeoff）计算学习理论（英语：Computational learning theory）经验风险最小化奥卡姆学习（英语：Occam learning） PAC学习（英语：Probably approximately correct learning）统计学习 VC理论
大会与出版物 NeurIPS ICML（英语：International Conference on Machine Learning） ICLR ML（英语：Machine Learning (journal)） JMLR（英语：Journal of Machine Learning Research）
相关条目人工智能术语（英语：Glossary of artificial intelligence）机器学习研究数据集列表（英语：List of datasets for machine-learning research）机器学习概要（英语：Outline of machine learning）
查论编

Q-学习（英語：Q-learning）是强化学习的一种方法。Q-学习就是要記錄下学习過的策略，因而告诉智能体什么情况下采取什么行动會有最大的獎勵值。Q-学习不需要对环境进行建模，即使是对带有随机因素的转移函数或者奖励函数也不需要进行特别的改动就可以进行。

对于任何有限的馬可夫決策過程（FMDP），Q-学习可以找到一个可以最大化所有步骤的奖励期望的策略。^[1]，在给定一个部分随机的策略和无限的探索时间，Q-学习可以给出一个最佳的动作选择策略。

「Q」这个字母在强化学习中表示一个动作的期望奖励。^[2]

强化学习

强化学习涉及一个智慧型代理人（agent），一组「状态」 $S$ 和每个状态下的动作集合 $A$ 。通过执行一个行动 $\,a\in A$ ，该智慧型代理人从一个状态转移到另一个状态。在一个特定的状态下执行一个动作时，智慧型代理人可以得到一个奖励。

智慧型代理人的目标是最大化其奖励的總和。这个潜在的奖励是所有未来可以拿到的奖励值的期望的加权和。

例如，假设现在你要上地铁，奖励就是你所花的时间的相反数。一种策略就是车门一开就往上挤，但是还有很多人要下车，逆着人流往上挤也会花费不少时间，这个时候你花的总时间可能是：

0秒钟等待时间+15秒挤上去的时间

在接下来的一天，很巧合，你决定先让别人下车。虽然这个时候看起来等待的时间稍微增加了，但是下车的人也会下的更顺畅，这个时候你可能花的时间是：

5秒等待时间+0秒挤上去的时间。

算法

Q-學習演算法，主要內容為計算狀態與行為對應的最大期望奖励函式 $Q$ ：

Q:S\times A\to \mathbb {R}

在演算法初始化階段， $Q$ 初始值為零(由設計者設計)。在時間 $t$ 時，環境的狀態為 $s_{t}$ ，智慧型代理人選擇一個行為 $a_{t}$ ，並且獲得獎勵 $r_{t}$ ，環境因為代理人的行為導致狀態改變為新的狀態 $s_{t+1}$ ，此時便可根據以下公式更新 $Q$ 值。演算法的核心為簡單的利用過去與最近的權重平均值來迭代更新數值。

Q^{new}(s_{t},a_{t})\leftarrow (1-\alpha )\cdot \underbrace {Q(s_{t},a_{t})} _{\text{old value}}+\underbrace {\alpha } _{\text{learning rate}}\cdot \overbrace {{\bigg (}\underbrace {r_{t}} _{\text{reward}}+\underbrace {\gamma } _{\text{discount factor}}\cdot \underbrace {\max _{a}Q(s_{t+1},a)} _{\text{estimate of optimal future value}}{\bigg )}} ^{\text{learned value}}

其中 $r_{t}$ 代表從狀態 $s_{t}$ 到狀態 $s_{t+1}$ 所得到的獎勵值, $\alpha$ 為學習率( $0<\alpha \leq 1$ )。 $\gamma$ 為衰減系數( $0\leq \gamma \leq 1$ )，當 $\gamma$ 數值越大時，智慧型代理人便更加重視未來獲得的長期獎勵， $\gamma$ 數值越小時，智慧代理人便更加短視近利，只在乎目前可獲得的獎勵。

实现

Q-学习最简单的实现方式就是将獎勵值存储在一个表格（Q-table）中，但是这种方式受限于状态和动作空间的数目。

函数逼近

Q-学习可以结合函数逼近。^[3] 这使得在更大的状态空间中使用 Q-学习，即使状态空间是连续的。

一个解决方案是以使用人工神经网络来进行函数逼近。^[4]。函数逼近的方法在一些问题中会有很好的加速效果，某些时候算法可以通过早期经验的总结可以在一些未出现的状态中依然可以有很好的效果。

变种

深度Q-学习

深度Q-学习（Deep Q-learning）是一个由DeepMind公司开发的利用深度卷积神经网络来进行Q-学习的算法。在使用非线性函数逼近的时候，强化学习经常会有不稳定性或者发散性：这种不稳定性来于当前的观测中有比较强的自相关。DeepMind 通过使用经历回放，也就是每次学习的时候并不直接从最近的经历中学习，而是从之前的经历中随机采样来进行训练。

深度双Q-学习

尽量深度Q-学习的效果已经很好了，但是人们发现了一个问题，它会过高的估计Q值。DeepMind在2015年证明了这个估值错误真的存在，并且采用双Q-学习的方法改进了算法，从而降低了过高估值带来的影响。

参见

参考文献

^ Francisco S. Melo, "Convergence of Q-learning: a simple proof" （页面存档备份，存于互联网档案馆）
^ Matiisen, Tambet. Demystifying Deep Reinforcement Learning | Computational Neuroscience Lab. neuro.cs.ut.ee. December 19, 2015 [2018-04-06]. （原始内容存档于2018-04-07）（美国英语）.
^ Hasselt, Hado van. Reinforcement Learning in Continuous State and Action Spaces. Wiering, Marco; Otterlo, Martijn van (编). Reinforcement Learning: State-of-the-Art. Springer Science & Business Media. 5 March 2012: 207–251 [2018-09-18]. ISBN 978-3-642-27645-3. （原始内容存档于2022-06-01）.
^ Tesauro, Gerald. Temporal Difference Learning and TD-Gammon. Communications of the ACM. March 1995, 38 (3): 58 [2010-02-08]. doi:10.1145/203330.203343. （原始内容存档于2010-02-09）.

外部链接

Watkins, C.J.C.H. (1989). Learning from Delayed Rewards. PhD thesis, Cambridge University, Cambridge, England.（页面存档备份，存于互联网档案馆）
Strehl, Li, Wiewiora, Langford, Littman (2006). PAC model-free reinforcement learning
Reinforcement Learning: An Introduction by Richard Sutton and Andrew S. Barto, an online textbook. See "6.5 Q-Learning: Off-Policy TD Control".
Piqle: a Generic Java Platform for Reinforcement Learning（页面存档备份，存于互联网档案馆）
Reinforcement Learning Maze（页面存档备份，存于互联网档案馆）, a demonstration of guiding an ant through a maze using Q-learning.
Q-learning work by Gerald Tesauro（页面存档备份，存于互联网档案馆）
Q-learning work by Tesauro Citeseer Link - Doesn't work
Q-learning algorithm implemented in processing.org language - Doesn't work
JavaScript Example with Reward Driven RNN learning
A Brain Library^{[永久失效連結]}
A Genetics Library used by the Brain^{[永久失效連結]}

查论编机器学习同数据挖掘主題

基本概念	学习 · 图灵测试 · 運算學習論

數學模型	迴歸模型 · 人工神经网络（深度学习） · 生成对抗网络 · Transformer模型 · 大语言模型 · 決策樹 · 貝氏網路 · 支持向量机 · 关联规则学习

學習範式	机器学习 · 深度学习 · 迁移学习 · 微调 (深度学习) · 监督学习 · 半监督学习 · 無監督學習 · 强化学习 · Q学习 · 遺傳演算法

主要應用	统计分类 · 表征学习 · 降维 · 聚类分析 · 异常检测

相關領域	计算科學 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 统计学 · 數據科學 · 计算机科学 · 信息与计算科学 · 神经科学 · 认知科学

可微分计算

概论

可微分编程
自動微分
张量微积分（英语：Tensor calculus）
信息几何
统计流形
神经形态工程（英语：Neuromorphic engineering）
模式识别
运算学习理论（英语：Computational learning theory）
归纳偏置

概念

梯度下降
- SGD（英语：Stochastic gradient descent）
聚类
回归
- 过拟合
幻觉
对抗（英语：Adversarial machine learning）
注意力
卷积
損失函數
反向传播
激活函数
- softmax
- sigmoid
- ReLU
正则化
数据集
扩散（英语：Diffusion process）
自回归

应用

硬件

TPU
VPU
IPU（英语：Graphcore）
憶阻器
SpiNNaker（英语：SpiNNaker）

软件库

Theano
TensorFlow
- Keras
PyTorch
JAX
Flux.jl（英语：Flux (machine-learning framework)）

实现

视觉·语音	AlexNet WaveNet 人像合成手寫识别 OCR 语音合成语音识别人脸识别 AlphaFold DALL-E Midjourney Stable Diffusion Sora Whisper（英语：Whisper (speech recognition system)）

自然语言	Word2vec Seq2seq BERT LaMDA Bard NMT 辩手项目（英语：Project Debater）沃森 GPT GPT-1 GPT-2 GPT-3 GPT-4 GPT-J（英语：GPT-J） ChatGPT 文心一言 Chinchilla AI（英语：Chinchilla AI） PaLM（英语：PaLM） BLOOM（英语：BLOOM (language model)） LLaMA TAIDE

决策	AlphaGo Q学习 SARSA OpenAI Five（英语：OpenAI Five）自动驾驶 MuZero 行动选择（英语：Action selection） Auto-GPT 机器人控制（英语：Robot control）