数理最適化 2021.05.05 0 強化学習の基礎 マルコフ決定過程とQ-Learningについて この記事では、強化学習を理解するための基本的な知識であるマルコフ決定過程によるモデル化とQ-Learningアルゴリズムについての解説を行います。マルコフ決定過程(Markov Decision Process, MDP)確率論におけるマルコフ性とは、「現在の状態が直前の状態にのみ