Min-Max Algorithm-Wikipedia、無料百科事典

before-content-x4

Minimax (時々 minmax ) – 可能な最大の損失を最小化する方法。あるいは、最小利益の最大化として扱うことができます( マキシミン )。これは、両方のケースを含むゼロのゲームの理論から派生しています。どちらのケースでも、プレイヤーが交互に動きをするだけでなく、同時に動きをするものもあります。これは、不確実性の存在下で、より複雑なゲームと一般的な意思決定にも拡張されました。

after-content-x4

ミニマックス理論:

ゼロサムの各ダブルゲームには、各プレーヤーにVと混合戦略があります。これにより、(a)2番目のプレーヤーの戦略を考慮し、最初のプレーヤーの最良の返済はVであり、(b)最初のプレイヤーの戦略を考慮して、プレーヤーの可能な限り最高の返済は-Vです。

プレーヤーの適切な戦略1.プレーヤーの戦略に関係なく、彼が返済vを保証します。各プレーヤーが2番目のプレーヤーの最大返済を最小限に抑えるために、Minimaxという名前が表示されました。ゲームはゼロのゲームであるため、最小返済も最大化します。

この主張は20世紀にジョン・フォン・ノイマンによって設立されました [初め] 「私はこれまでに見える、ゲームの理論はあり得ない…この理論がなければ、出版する価値はないと思った。 ミニマックス理論 証明された」 [2]

関数があります s ゲームの状態の価値をいつでも評価します(プレーヤーMinはこの状態を最小限に抑え、プレイヤーが最大化したいと考えています)、ゲーム内のすべての可能な状態のツリーを特定の深さ(通常はコンピューティングパワーによって制限されています)を計算します。州の状態の分岐は一定であり、 b (つまり、すべての動きに答えることができます b その他)、および深さ d (Minmaxアルゴリズムを使用して非常に多くの動きをシミュレートします)、私たちは持っています

b d{displaystyle b^{d}}

機能を使用してゲームの値を計算する状態を終了します s 。私たちは最終状態から閲覧を開始し、両方のプレイヤーの最適な選択をシミュレートして、深さで d (木の葉に)それらに最適な数がありました s (完了後のゲームの状態 d 動き)。したがって、プレーヤーは常に最終的な価値が少なく、プレーヤーが最大につながる動きを選択します。このシミュレーションの後、ツリーの根本(現在のパフォーマンスの動き)にあるプレーヤーは、シミュレーションから深さまでのシミュレーションからゲームの状態に関する情報のコンテキストで彼の動きが最適であることを確信しています d (つまり、最小利益を最大化します)。

アルゴリズムは、特定の瞬間に最適な動きを選択するために使用されるため、相手の動きの後、再びシミュレートする必要があります。より深い深さ d シミュレーションはより良い動きにつながります。アルファベータカットオフを使用したアルゴリズムの最適化により、最適な場合、考慮される条件の量を減らすことができます〜

2 b d/2{displaystyle 2b^{d/2}、}

その結果、動きをほぼ2回シミュレートすることができます。

after-content-x4

最適なミニマックスの結果を達成するには、優れた関数評価機能を持つことが重要です s 。最適な関数 s この場合、ゲームは解決されるため(何度も何度も何度も最適な戦略を知っているでしょう)、ゲームのパラメーターから線形多項式として表現されるさまざまなヒューリスティックが使用される理由です。

決定の統計理論の基準のミニマックス [ 編集 | コードを編集します ]

決定推定器の古典的な統計理論で

d {displaystyledelta}

パラメーターを推定するために使用されます

th th {displaystyle theta in theta。}

リスク関数も想定されています

r th d )) {displaystyle r(theta、delta)、}

通常、機能の喪失と積分として定義されます。この文脈で

δ~{displaystyle {tilde {delta}}}

彼女は名前が付けられています Minimax 、それが会うなら

フレームワークの決定における代替基準は、以前の分布の存在下でのベイズの推定器です

pi {displaystyle pi。}

推定器は、最小化するとベイジアンです 中くらい 危険

after-content-x4