はじめに
強双対定理の証明を紹介します
「機械学習プロフェッショナルシリーズ 統計的学習理論」の付録Bに載っているものが元となっています
詳しくはそちらを参照ください
主張
ラグランジュ関数 L(x,λ)=f(x)+∑j=1mλjhj(x)=f(x)+λTh(x) において,∃x∈D,∀j∈{1,⋯,m},hj(x)<0 (スレイター制約想定)を満たすとき
λ≥0maxx∈RdminL(x,λ)=x∈Rdminλ≥0maxL(x,λ) が成り立つ
以下,d∗ と p∗ を次で定義する
d∗:=λ≥0maxx∈RdminL(x,λ),p∗:=x∈Rdminλ≥0maxL(x,λ) 証明の前準備
以下の定理を導入した上で証明を行います
- 弱双対定理
- 凸集合の超平面分離定理
弱双対定理
主張
λ≥0maxx∈RdminL(x,λ)≤x∈Rdminλ≥0maxL(x,λ) 証明
🚫
Post not found
凸集合の超平面分離定理
主張
S,T(=∅)⊂Rd,S∩T=∅ のとき
∃a(=0)∈Rd,b(=0)∈R s.t. {x∈S⟹aTx≥bx∈T⟹aTx≤b 証明
TODO
証明
まず,集合 A を
A={(u,t)∈Rd×R∣∃x∈Rd,u≥h(x)∧t≥f(x)} とおくと
p∗=min{t∣(0,t)∈A} が成り立つ
これは p∗ に対応する不等式制約付き最適化問題から分かる
x∈Rdminf(x)s.t. hj(x)≤0, ∀j∈{1,⋯,m} スレイター制約想定より,p∗<∞ であり, p∗=−∞ のとき
🚫
Post not found より d∗=−∞ で主張が成り立つから,以下では p∗∈R と仮定する
次に集合 B を
B={(0,t′)∈Rd×R∣t′<p∗} とすると A∩B=∅ である
ここで
🚫
Post not found より
(Q. Aが凸集合であることの証明)
{(u,t)∈A⟹aTu+a0t≥b(u′,t′)∈B⟹aTu′+a0t′≤b を満たす (a,a0)(=0)∈Rd×R,b(=0)∈R が存在する
そのような (a,a0),b を選ぶと
∀(u,t)∈A,(u′,t′)∈Bs.t. aTu+a0t≥aTu′+a0t′u′=0=a0t′(1) が成り立つ
集合 A の定義から (u,t) は任意に大きい値を取るため (a,a0)≥0 でなければ (1) が成り立たない
(1) と p∗=supt′∈Bt′ より aTu+a0t≥a0p∗ であり,(h(x),f(x))∈A から
aTh(x)+a0f(x)≥a0p∗(2) が成り立つ
また,a0=0 のとき (2) より ∀x∈Rd,aTh(x)≥0 であるが スレイター制約想定 から a=0 が成り立ち (a,a0)=0 と矛盾
ゆえに,a0>0 であり (2)/a0⟺a0aTh(x)+f(x)≥p∗ が成り立つ
したがって,x∈RdminL(x,a0a)≥p∗ となり, d∗≥x∈RdminL(x,a0a) であるから d∗≥p∗ が成り立つ
これと
🚫
Post not found を合わせて d∗=p∗ である
まとめ
以上が強双対定理の証明でした
A が凸集合であることの証明は自明でないと思われますが、私の理解が及んでおらず、載せるに至っていないので割愛します