select766select766

PokéAI #4:金銀汎用行動選択モデル編

☆2022年9月 32ページ増量しました!手法の3vs3バトルへの拡張を行いました。☆ 人工知能技術を活用して、ポケモンバトルの戦略を自動的に構築する手法を研究します。 強化学習などの技術を応用する方法や実験結果の解説を掲載します。 第4巻では、どんなパーティの行動選択でも行える単一のモデルを強化学習することがテーマです。 過去の巻がなくても読めるよう配慮しています。 電子書籍(PDF)、72ページ(表紙含む)です。 試し読み https://www.pixiv.net/artworks/84340412 第3巻 https://select766.booth.pm/items/1736100 第1章 イントロダクション 1.1 ポケモンバトルのシステム 1.2 本書で扱うポケモンバトルのルール設定について 1.3 汎用行動選択モデル 第2章 汎用行動選択モデルの擬似教師あり学習 2.1 擬似教師データの作成 2.2 汎用行動選択モデルの設計 2.3 実験 2.3.1 学習したモデルの定性評価 第3章 汎用行動選択モデルの強化学習 3.1 強化学習システムの独自実装 3.2 学習条件 3.3 教師あり学習との比較 3.4 バトル内容の評価 3.5 強化学習のハイパーパラメータチューニング 3.5.1 ハイパーパラメータチューニングライブラリOptunaの利用法 3.5.2 ハイパーパラメータチューニングの実験結果 第4章 汎用行動選択モデルを用いたパーティ生成 4.1 Q関数の観察 4.2 Q関数を用いたパーティの強さの定式化 4.3 Q関数によるパーティ評価の実験 4.4 Q関数による強いパーティの生成 4.4.1 ペナルティ項つき山登り法による多様なパーティ生成 4.5 パーティ生成実験 第5章パーティ生成と行動選択の交互学習 5.1 実験条件 5.2 各反復の結果 5.3 全反復でのパーティ混合での対戦結果 5.4 バトル中の行動の分析 5.5 なぜドンファンが最上位だったか 5.6 第3巻でカビゴンが登場しなかった理由 第6章まとめ 付録A カビゴン禁止ルール

☆2022年9月 32ページ増量しました!手法の3vs3バトルへの拡張を行いました。☆ 人工知能技術を活用して、ポケモンバトルの戦略を自動的に構築する手法を研究します。 強化学習などの技術を応用する方法や実験結果の解説を掲載します。 第4巻では、どんなパーティの行動選択でも行える単一のモデルを強化学習することがテーマです。 過去の巻がなくても読めるよう配慮しています。 電子書籍(PDF)、72ページ(表紙含む)です。 試し読み https://www.pixiv.net/artworks/84340412 第3巻 https://select766.booth.pm/items/1736100 第1章 イントロダクション 1.1 ポケモンバトルのシステム 1.2 本書で扱うポケモンバトルのルール設定について 1.3 汎用行動選択モデル 第2章 汎用行動選択モデルの擬似教師あり学習 2.1 擬似教師データの作成 2.2 汎用行動選択モデルの設計 2.3 実験 2.3.1 学習したモデルの定性評価 第3章 汎用行動選択モデルの強化学習 3.1 強化学習システムの独自実装 3.2 学習条件 3.3 教師あり学習との比較 3.4 バトル内容の評価 3.5 強化学習のハイパーパラメータチューニング 3.5.1 ハイパーパラメータチューニングライブラリOptunaの利用法 3.5.2 ハイパーパラメータチューニングの実験結果 第4章 汎用行動選択モデルを用いたパーティ生成 4.1 Q関数の観察 4.2 Q関数を用いたパーティの強さの定式化 4.3 Q関数によるパーティ評価の実験 4.4 Q関数による強いパーティの生成 4.4.1 ペナルティ項つき山登り法による多様なパーティ生成 4.5 パーティ生成実験 第5章パーティ生成と行動選択の交互学習 5.1 実験条件 5.2 各反復の結果 5.3 全反復でのパーティ混合での対戦結果 5.4 バトル中の行動の分析 5.5 なぜドンファンが最上位だったか 5.6 第3巻でカビゴンが登場しなかった理由 第6章まとめ 付録A カビゴン禁止ルール