Perceptronove uceni

Počítač X mozek

rychlost zpracování informací
způsob zpracování inforamcí (sériově X paralelně)
způsob ukládání informací
redundance
řízení

Neuronové sítě

1943 - McCulloch, Pitts
formální neuron
1949 - D. Hebb
Matematický pojem učení
1958 - Rosenbllatt
perceptron
1962 - Widrow, Hoff
Adaline - sigmoidální přenosová funkce
60. léta - Minsky, Papert
Perceptrony
80. léta - další rozvoj

Současné problémy:

strategie učení
generalizace a architektura
konvergence
predikce

Použití:

komprese dat
řešení a optimalizace úloh
klasifiakce
zpracování informací:
řeči, vidění, čichu, hmatu, motoriky, etc.

Základní biologické poznatky

Model Neuronu

Základní "výpočetní jednotka" složitějšího komplexu - Neuronové Sítě
Biologický neuron se zkládá z:
- Těla (somatu) - načítá signály předávané okolními neurony → potenciál
  - stanovený vnitřní potenciál neuronu vede k excitaci(vybuzení) neronu
  - tělo neuronu má průměr několik nanometrů až několik desítek nanometrů
- Dendritů - reprezentují vstup signálů do těla neuronu
  - délka dendritů se pohybuje okolo 2-3 milimetrů
- Axonu - (jediný) výstup neuronu, který je však na konci bohatě rozvětvený
  - přenáší signál daný stupněm excitace k synapsím
  - délka axonového vlákna může dosahovat až 1 metr
- Synapsí - tovří "výstupní zařízení" neuronu, která signál zesilují či zeslabují a předávají dalším neuronům
  - na jeden neuron připadá až 10⁶ spojů s jinými neurony
Výstup neuronu závisí na vstupech neuronu a jejich zpracování uvnitř těla neuronu

Model biologického neuronu

Neurony jsou vzájemně propojeny do sítí
- prostřednictvím axonů, které jse pomocí synapsí napojují na dendrity jiných neuronů
Hustota neuronů v lidském mozku dosahuje cca 7-8x10⁴/ mm³
- denně odumře cca 10⁴ neuronů, které už nejsou nahrazeny
- synapse se na dendritech vytvářejí během celého života
  →vznik nových synapsí, resp. oživení dosud nefunkčních synapsí
  → ULEN=
Povrch neuronu je pokryt membránou, která umožňuje přenášet informace
- membrána se skládá ze dvou vrstev molekul - tzv. lipidů
- mezi vrstvami lipidů jsou ještě vnitromolekulární proteiny, které tvoří iontové pumpy a kanály

Iontové kanály - říyení prostupnosti membrány s ohledem na daný typ iontů Iontové pumpy - přenášejí přes membránu trvale ionty Na⁺ a K⁺
Tím dochází ke stálé polarizaci membrány

vnější povrch má kladný potenciál
na vnitřním povrchu je záporný potenciál
rozdíl potenciálů se pohybuje kolem 70mV

4 typy membrán:

vodivá membrána (myelinový povlak)
- pokrývá axon
- v určitých vzdálenostech je přerušována tzv. ranvierovými zářezy (ty slouží k dosažení vysokých přenosových rychlostí a malého zkreslení přenášených signálů)
- bez myelinového povlaku s ranvierovými zářezy by se signály šířily až 50x pomaleji
transmisivní membrána - proti vodivé membráně obsahuje navíc receptronové proteiny, které umožňují otevírat nebo zavírat iontové kanály

Funkce paměti

Krátkodobý paměťový mechanismus
- založen na cyklickém oběhu vzruchů v neuronových sítích
- probehne-li tato cirkulace cca 300x, začne docházet k fixaci informace ve střednědobé paměti - to trvá cca 30s
Střednědobý paměťový mechanismus
- založen na změnách "vah neuronů"
- změna váhových koeficientů v synapsi je vyvolána mnohonásobným působením téhož signálu na příslušných synaptických přechodech
- ve spánku přecházjí některé z takto uchovávaných informací do dlouhodobých pamětí
- informace se uchovává několik hodin a případně i dnů
Dlouhodobý paměťový mechanismus
- spočívá v kopírování informací ze střednědobé paměti do bílkovin, které jsou uvnitř neuronů (hlavně v jejich jádrech)
- některé takto uchované informace zůstanou v organismu celý život

Adaptace a učení

Adaptace: schopnost přizpůsobit se změnám okolního prostředí

Adaptivní proces: Proces přizpůsobení

Každá adaptace představuje pro systém jistou ztrátu (materiál, energie, ..)
→ Živé organismy dokáží tyto ztráty při mnohonásobném opakování adaptace na určitou změnu prostředí zmenšovat.

Minimalizace ztrát vynaložených na adpataci: učení
(výsledek mnohonásobného opakování adaptace)

Projev prostředí: X
Příznakový popis předmětů - výběr n elementárních vlastností (příznaků: x₁, .. ,x_n)
X= ( x₁, .. ,x_n )

Informace o požadovaném chování systému (reakci) na projev prostředí: Ω

Systém reaguje na libovolný projev prostředí x a informaci Ω tak, že na výstupu vydá jeden ze symbolů ω_r ; r = 1, .., R

Každé přiřazení [x, Ω] → ω_r doprovází jistá ztráta dána funckí Q(x, Ω, ω_r) za časovou jednotku

Cíl systému: Najít pro každé x a Ω takové přiřazení [x,Ω]→ω_r, pro keteré je ztráta minimální.

Q(x, Ω, ω_r) = min Q(x, Ω, &omega)

Adaptivní systém je systém se dvěma vstupy a jedním výstupem, který je popsán:

Množinou X projevů prostředí x
Množinou O₁ informací o požadovaném chování Ω
Množinou O₂ výstupních symbolů ω
Množinou D rozhodovacích pravidel ω = d(x, q)
Ztrátou Q(x, Ω, q)

Jeho činnost se vyznačuje tím, že pro každou funkci [x, Ω] hledá takový parametr q^*, při kterém platí:
Q(x, Ω, q^*) = min_q Q(x, Ω, q)

Adaptivní systémy

Počáteční přiřazení [x, Ω] → ω_s

Setrvá-li systém po dobu T na počátečním přiřazení, utrpí celkovou ztrátu TQ(x, Ω, s)

Je-li systém schopen měnit své chování na základě průběžného vyhodnocování ztráty, nalezne po určité době T potřebné k vyhodnocení ω_r, pro které je ztráta minimální.

→ celková ztráta za dobu T

TQ(x, Ω, ω_s) + (T - T)Q(x, Ω, ω_r)

Je větší než nejmenší možná celková ztráta TQ(x, Ω, ω_r)
Je menší než celková ztráta systému, který nemůže měnit své rozhodnutí TQ(x, Ω, ω_s)

TQ(x, Ω, ω_r) < TQ(x, Ω, ω_s) + (T-T)Q(x, Ω, ω_r) < TQ(x, Ω, ω_s)

Učící se systémy

Uložení výsledků adaptace do paměti

Odstranění doby T potřebné k nalezení minima ztráty při opakovaném výsledku příslušného projevu prostředí
Dále nebude třeba vyčíslovat ztráty - po naučení není nutná informace Ω o požadovaném chování

Celková ztráta učícího se systému po naučení: TQ(x, Ω, ω_r)
(Menší než celková ztráta adaptativního systému)

Učící se systém je systém se svěma vstupy a jedním výstupem, který je popsán:

Množinou X projevů prostředí x
Množinou O₁ informací o požadovaném chování Ω
Množinou O₂ výstupních symbolů ω
Množinou D rozhodovacích pravidel ω = d(x, q)
Požadovaným chováním Ω = T(x)
Střední ztrátou J(q) vyčíslenou na X x O₁

Jeho činnost se vyznačuje tím, že po postupném předložení dvojic z posloupnosti {[x_k, Ω_k]}^∞_k=1, kde Ω_k = T(x_k) nalezne takový parametr q, při kterém platí J(q^*) = min_q J(q)

Sekvenčnost - postupné překládání dvojic [x_k, Ω_k]

Induktivnost - nalézt po rpozkoumání spočetně mnoha [x_k, Ω_k] parametr q^*, který minimalizuje střední ztrátu přes celou X.

Efektivnost adaptace a učení

Efektivnost adaptivního systému je tím větší, čím kratší je doba adaptace T a čím delší jsou časové intervaly T, během kterých nedochází ke změnám prostředí.

T / T → 0
Efektivnost AS je porovantelná s efektivností učícího se systému po naučení
T / T → 1 (T / T < 1)
AS je zhruba stejně efektivní jako neadaptivní systém
T / T ≥ 1
K adaptaci nedochází

Efektivnost učícího se systému je největší možná.

Výběr a uspořádání příznaků

Pravděpodobnost chybného rozhodnutí X množství informace obsaženéve vstupních vzorech

Příliš velký počet příznaků:

Technická realizovatelnost
Rychlost a zpracování
Nebezpečí přeučení
Korelace příznaků

Volba informativních příznaků

Výběr minimálního počtu příznaků z předem zvolené množiny příznaků
(nelze zaručit, že tato množina obsahuje informativní příznaky - volba závisí na konkrétní úloze)
Uspořádání příznaků v předem zvolené množině příznaků
- podle množství nesené informace - sekvenční a.

Vlastnosti Karhunen-Loeveova rozvoje

Při daném počtu členů rozvoje poskytuje ze všech rozvojů nejmenší střední kvadratickou odchylku od původních vzorů
Vzory jsou po použití disperzní matice po aproximaci nekolerované
→dekolerace příznaků
Lleny rozvoje nepřispívají rovnoměrně k aproximaci - vliv každého z členů na přesnost aproximace se zmenšuje s jeho pořadovým indexem
→ vliv členů s vysokými indexy bude malý a můžeme je zanedbat (resp. vynechat)
Velikost chyby aproximace neovlivňuje strukturu rozvoje
→ Změna požadavků na chybu aproximace nevyžaduje přepočítávat celý rozvoj
→ stačí jen přidat či odstranit něklik posledních členů
výhodné u sekvenčních metdo klasifikace

Volba vhodného zobrazení V
V: X^m → x^p
tak, aby vzory z x^p byly nejlepší aproximací původních vzorů z X^m ve syslu střední kvadratické odchylky.

K vzorů z jedné třídy
m příznaků
p ortonormálních vektorů e_i; i = 1, .. , p v X ( p ≤ m)
→ aproximace x_k z množiny X^m; k = 1, .. K
lineární kombinací vektorů e_i
Y_k = Suma[i = 1 .. p] c_kie_i
tak, aby kvadrát odchylky x_k od y_k
Ε²_k = || x_k - y_k ||
byl minimální

v = ( v₁, v₂, ..)^T
x = ( x₁, x₂, ..)^T

y = v^Tx = v₁x₁ + v₂x₂ + ..

Měřeno m příznaků, z nichž chceme získat p nejdůležitějších příznaků
(1 ≤ p << m )

Matice V : p * m

    ( v₁₁ .. v_1p )
    (  . .     . )
V = (  .   .   . )
    (  .     . . )
    ( v_m1 .. v_mp )

Výpočet vektoru p nejdůležitějších příznaků:
y = V^Tx

Výpočet matice V

"vycentrovat data"
u_j = (1 / n) * Suma[i = 1 .. n]x_ij
Disperzní maitce pro trénovací množinu
w_ij = w_ji = (1 / n) * Suma[k = 1 .. n](x_ki - u_i)(x_kj - u_j)
- Vektory, které definují nejdůležitější příznaky jsou charakteristickým vektory disperzní matice
- Charakteristická čísla odpovídají rozptylu nejdůležitějších příznaků
  → prvním sloupcem matice V bude charakteristický vektor odpovídající největšímu charakteristickému číslu, ..
- Další sloupce V se přestanou přidávat poté, co lze další charakteristická čísla vzhledem k jejich velikosti zanedbat.

Problém: Volba odpovídajícího počtu charakteristických čísel (p)

Nelze zaručit optimální volbu p vzhledem ke skutečnému významu jednotlivých příznaků. Modifikace:

Centrované nejdůležitější příznaky
y = V'(x - u), kde
u = (u₁, ..) je vektor středních hodnot
Normalizace nejdůležitějších příznaků
y = L^(-1/2) V'(x - p), kde L je matice p*p, prvky diagonály jsou charakteristická čísla odpovídající sloupcům V, ostatní prvky jsou 0
Normalizace nejdůležitějších příznaků vzhledem k rozptylům
w'_ij = w_ij / sqrt( w_ii w_jj )
sqrt(X) je druhá odmocnina z X

Formální neuron

Přenosová funkce

Skoková:
f(ξ) =
- 1, jestliže ξ > 0
- 0, v ostatních případech
Sigmoidální:
S(ξ) = 1 / (1 + e^-ξ)

Učení

S učitelem:
Trénovací množina - [vstup / požadovaný výstup]
Bez učitele (samoorganizace):
Chybí požadovaný výstup

→ Cíl: Nastavení (adaptace) synaptických vah

Cílová funkce:
Například:
Suma[p]Suma[j] (y_p,j - d_p,j)²
y .. skutečný výstup
d .. požqadovaný výstup

Minimalizace střední kvadaratické odchylky v procesu učení

Rozpoznávání nově předkládaných vzorů
→ Cíl: Získat odezvu (výstup) neuronové sítě

Definice formálního neuronu

Neuron s vahami (w₁, .., w_n) z množiny Rⁿ, prahem v z množiny R a přenosovou funkcí f : Rⁿ⁺¹ x Rⁿ → R počítá pro libovolný vstup z z množiny Rⁿ svůj výstup y z množiny R jako hodnotu přenosové funkce v z, f[w,v](z).

Nejčastěji se uvažuje tzv. sigomidální přenosová funkce
y = f[w,v](z) = f(ε) = 1 / ( 1 + e^-ε

&epsilon = Suma[i = 1 .. n] z_iw_i + v označuje tzv. potenciál neuronu, R množinu reálných čísel.

Definice stavů neuronu

Nechť z označuje vstup neuronu.

Jestliže f[w,v](z) = 1, říkáme, že je neuron aktivní
Jestliže f[w,v](z) = 1/2, říkáme, že je neuron tichý;
Tato skutečnost znamená, že příslušný vstup leží v dělící nadrovině určené tímto neuronem
Jestliže f[w,v](z) = 0, říkáme, že je neuron pasivní.

Definice trénovacích vzorů

Pro BP-síť B s n vstupními a m výstupními neurony:

vstupní vzor označuje vstupní vektor x z množiny Rⁿ zpracovávaný sítí
požadovaný výstup d = (d₁, .., d_m) tvoří požadované výstupy neuronů výstupní vrstvy
pro daný vstupní vzor představuje skutečný výstup B vektor y = (y₁, .., y_m) tvořený skutečnými výstupy neuronů výstupní vrstvy

Trénovaví množina T je množina p uspořádaných dvojic tvaru vstupní vzor/požadovaný výstup:
T = {[x₁, d₁], .., [x_p, d_p]}

Perceptron a lineární separabilita

D: Jednoduchý perceptron je výpočetní jednotka s prahem v, která pro n reálných vstupů x₁, .., x_m a váhy w₁, .., w_n dává výstup 1, jestliže platí nerovnost:
Suma[i = 1 .. n] w_ix_i ≥ v
(Tzn. jestliže w.x ≥ v) a 0 jinak.

Pozn.: Obdobně pro tzv. rozšířený váhový a vstupní vektor: w = (w₁, w₂, .., w_n, w_n+1); w_n+1 = -v
x = (x₁, x₂, .., x_n, 1)
→ výstup 1, jestliže w.x ≥ 0

Lineární separabilita

D: Dvě množiny A a B se nazývají lineárně separabilní v n-rozměrném prostoru, pokud existuje n+1 reálných čísel w₁, .., w_n, v takových, že každý bod (x₁, .., x_n) z množiny A splňuje:
Suma[i = 1 .. n]w_ix_i ≥ v
a každý bod (x₁, .., x_n) z množiny B splňuje:
Suma[i = 1 .. n]w_ix_i < v
Příklad:
n = 2 → 14 z 16 možných boolovských funkcí je "lineárně separabilních"
n = 3 → 104 z 256 možných boolovských funkcí je "lineárně separabilních"
n = 4 → 1882 z 65536 možných boolovských funkcí je "lineárně separabilních"

Pro obecný případ zatím není znám výraz pro vyjádření odpovídajícího počtu lineárně separabilních funkcí v závislosti na n.

Absolutní lineární separabilita

D: Dvě množiny A a B se nazývají aboslutně lineárně separabilní v n-rozměrném prostoru, pokud existuje n+1 reálných čísel w₁, .., w_n, v takových, že každý bod (x₁, .., x_n) z množiny A splňuje:
Suma[i = 1 .. n]w_ix_i > v
a každý bod (x₁, .., x_n) z množiny B splňuje:
Suma[i = 1 .. n]w_ix_i < v

V: Dvě konečné množiny bodů A a B, které jsou lineárně separabilní v n-rozměrném prostoru jsou také absolutně lineárně separabilní.
Důkaz: Protože jsou množiny A a B lineárně separabilní, existují reálná čísla w₁, .., w_n, v taková, že platí:
Suma[i = 1 .. n]w_ix_i ≥ v pro všechny body (a₁, .., a_n) z množiny A a Suma[i = 1 .. n]w_ix_i < v pro všechny body (b₁, .., b_n) z množiny B.
Dále nechť Ε = max{Suma[i = 1 .. n]w_ib_i-v; (b₁, .., b>sub>n) je z množiny B}.
Zřejmě Ε < Ε / 2 < 0

Nechť v' = v + Ε / 2 (Tedy: v = v' - Ε / 2)
→

pro všechny body z A platí, že:
Suma[i = 1 .. n]w_ia_i - (v' - Ε / 2) ≥ 0
to znamená, že Suma[i = 1 .. n]w_ia_i - v' ≥ - Ε / 2 > 0
→ Suma[i = 1 .. n]w_ia_i > v' (+ (a₁, ..., a_n) z množiny A) (*)
Podobně pro všechny body z B:
Suma[i = 1 .. n]w_ib_i-v = Suma[i = 1 .. n]w_ib_i-(v'-Ε / 2) < 0
a tedy: Suma[i = 1 .. n]w_i - v' < Ε / 2 < 0 (**)

→ Z (*) a (**) vyplývá, že množiny A a B jsou absolutně lineárně separabilní
QED

Dělící nadrovina

(pro rozšířený váhový, resp. příznakový pr.)
D: Otevřený (uzavřený) pozitivní poloprostor
určený n-rozměrným váhovým vektorem w, je množina všech bodů x z množiny Rⁿ, pro které w.x > 0 (w.x ≥ 0)
Otevřený (uzavřený) negativní poloprostor
určený n-rozměrným váhovým vektorem w je množina všech bodů x z monžiny Rⁿ, pro které pw.x < 0 (w.x ≤ 0)

Dělicí nadrovina určená n-rozměrným váhovým vektorem w je množina všech bodů x z množiny Rⁿ, pro které w.x =

Problém : Nalézt takové váhy (resp. práh), které by umožnily separaci (oddělení) dvou množin vzorů.
→ např. perceptronový algoritmus učení
.Předp:
A ... množina vstupních vektorů v n-rozměrném prostoru
B ... množina vstupních vektorů v n-rozměrném prostoru
→ separace A a B:
Perceptron by měl realizovat binární funkci f_w tak, aby
f_w(x) = 1 pro všechna x z množiny A
f_w(x) = 0 pro všechna x z množiny B
(f_w závisí na vahách, resp. prahu)

Chybová funkce odpovídá počtu chybně "zařazených" vzorů:
E(w) = Suma[x je z množiny A](1 - f_w(x)) + Suma[x je z množiny B]f_w(x)

Cíl učení: Minimalizace E(w) ve váhovém prostoru
(→ nejlépe E(w) = 0)

Perceptronový algoritmus učení - idea

Hledáme váhový vektor w s pozitivním(P a P je třeba "odseparovat") skalárním součinem pro všechny vektory reprezentované body v P a se záporným skalárním součinem pro všechny vektory reprezentované body v N

→ Obecně: Za předpokladu, že P a N jsou množiny n-rozměrných vektorů, chceme nalézt takový váhový vektor w, že:
w.x > 0 pro všechny x z množiny P
w.x < 0 pro všechny x z množiny N

perceptronový algoritmus učení začíná s náhodně zvoleným váhovým vektorem w₀
pokud existuje vektor x z množiny P takový, že w.x < 0, znamená to, že úhel mezi těmito dvěma vetkroy je větší než 90^o
- váhový vektor je nutné zadaptovat (~ototčit) ve směru x (tak, aby se tento vektor dostal do "pozitivního" poloprostoru definovaného w
- otočení ve směru x lze provést přičtením x k vektoru w
pokud existuje x z množiny N a w.x >, pak je úhel mezi x a w menší než 90^o
- váhový vektor je nutné zadaptovat (~otočit) směrem od x
- to lze provést odečtením x od w
(vektory z P otáčejí váhový vektor opačným směrem, než vektory z N)
→ pokud existuje řešení, lze ho nalézt v konečném počtu kroků
heuristika pro počáteční nastavení vah:
začít s průměrem "pozitivních" vstupních vektorů minus průměr "negativních" vektorů
parametr učení
stupeň adaptivity vah ~ plasticita sítě

Perceptron - algoritmus učení

krok: Inicializace vah malými náhodnými hodnotami w_i(0); (1 ≤ i ≤ n + 1)
w_i(0) ... váha vstupu v čase 0
krok: Předložení trénovacího vzoru ve tvaru:
(x₁, ..., x_n+1) ... vstupní vzor
d(t) ... požadovaný výstup (pro předložený vstup)
krok: Výpočet skutečného výstupu (odezvy sítě)
y(t) = sgm(Suma[i = 1 .. n+1]w_i(t)x_i(t))
krok: Adaptace vah podle:
w_i(t+1) = w_i(t) - výstup je správný
w_i(t+1) = w_i(t) + x_i(t) - výstup je 0 a měl být 1
w_i(t+1) = w_i(t) - x_i(t) - výstup je 1 a měl být 0
krok: Poku t nedosáhl požadované hodnoty, přejdi k 2. kroku

Modifikace: Parametr učení m (0 ≤ m ≤ 1)
~ ovlivňuje rychlost adaptace. Adaptace vah podle:
w_i(t+1) = w_i(t) - výstup je správný
w_i(t+1) = w_i(t) + m*x_i(t) - výstup je 0 a měl být 1
w_i(t+1) = w_i(t) - m*x_i(t) - výstup je 1 a měl být 0

Konvergence perceptronového algoritmu učení (Rosenblatt - 1959)

V: Nechť P a N jsou konečné a lineárně separabilní množiny. Potom provede perceptronový algoritmus učení konečný počet aktualizací váhového vektoru w_t
(Pokud se budou cyklicky testovat jeden po druhém vzory z P a N, najde perceptronový algoritmus učení po provedení konečného počtu aktualizací váhový vektor, pomocí něhož lze navzájem separovat P a N)

Důkaz: ukážeme, že perceptronový algoritmus učení přiblíží počáteční váhový vektor w₀ dostatečně blízko "hledaného řešení"w^*

3 zjednodušení - bez újmy na obecnosti
1. Namísto P a N vytvoříme jedinou množinu P' = P U N^-
  (N^- tvoří "negované" prvky z N)
2. VEktory z P' budou normalizované
  (jestliže byl nalezen váhový vektor w, pro který platí w.x > 0, potom totéž platí i pro každý další vektor .x, m > 0)
3. Váhový vektor bude také normalizovaný
  (předpokládané normalizované řešení problému lineární separace budeme označovat jako w*)
předpokládejme, že po t+1 aktualizacích byl vypočten váhový vektor w_t+1
→ to znamená, že po t aktualizacích byl vektor p_i (z nožiny P') chybně klasifikován (pomocí váhového vektoru w_t)
a tedy: w_t+1 = w_t + p_i
kosinus úhlu u mezi w_t+1 a w^* je:
cos u = (w^*.w_t+1) / ||w_t+1|| (*)
pro výraz v čitateli (*) víme, že:
w^*.w_t+1 = w^*.(w_t + p_i) =
w^*.w_t + w^*.p_i)
≥ w^*.w_t + d,
kde d = min {w^*.p, p z množiny P'}
Protože váhový vektor w^* definuje absolutní lineární separaci P a N, víme, že d > 0

→ indukcí dostáváme:
w^*.w_t+1 ≥ w^*.w₀ + (t+1)*d (**)
Na druhé straně víme, že pro výraz ve jmenovateli (*) platí:
||w_t+1||² = (w_t + p_i) * (w_t + p_i) = ||w_t||² + 2w_tp_i + ||p_i||²
protože w_t.p_i ≤ 0
(jinak by nebylo potřeba aktualizovat w_t podle p_i)
platí, že:
||w_t+1||² ≤ ||w_t||² + ||p_i||² ≤ ||w_t||² + 1
(protože všehcny vektory z P' byly normalizovány)
→ indukcí dostáváme:
||w_t+1||² ≤ ||w₀||² + (t + 1) (***)
z (**) a (***) dostáváme porovnáním s (*) nerovnici:
cos u ≥ (w.w₀ + (t+1)*d ) / sqrt(||w₀||² + (t+1))
→ pravá strana nerovnice roste proporcionálně s sqrt(t) a protože d > 0, mohla by být libovolně velká.
Protože ale cos u ≤ 1, musí existovat horní mez a počet aktualizací váhového vektor musí být konečný
QED

Přihrádkový algoritmus učení

Idea:

nejlepší váhový vektor nalezený pomocí perceptronového algoritmu učení je "uložen v přihrádce"
současně se pokračuje v aktualizaci váhového vektoru
pokud se najde "lepší" váhový vektor, nahradí se ním vektor uložený v přihrádce

Start:
Náhodná inicializace váhového vektoru w a uložení váhového vektoru do přihrádky: w_s = w
Nastavení historie uloženého váhového vektoru: h_s = 0

Iterace:
aktualizace pomocí jedné iterace perceptronového algoritmu učení
aktualizace h podle po sobě jdoucích úspěšně testovaných vektorech
jestliže nastance h > h_s, nahraď w_s vektorem w a h_s číslem h.
Pokračuj v iteraci.

Protože se bere v úvahu jen informace o posledně zvolených vzorech, může dojít i k záměně "správného" váhového vektoru za horší. Pravděpodobnost tohoto jevu by však měla klesat s rostoucím počtem iterací. Pokud je trénovací množina konečná a složky váhového a příznakových vektorů jsou racionální, lze ukázat, že přihrádkový algoritmus konverguje k optimálnímu řešení s pravděpodobností 1.