ICML2018 pages | Tsukasa Takagi (t2kasa)

The following pages and posts are tagged with

Title	Type	Excerpt
Born-Again Neural Networks	Page	概要モデル圧縮で用いられるKnowledge Distillation (KD)において，teacherとstudentに同一のモデルを使用するBorn-Again Networks (BANs)を提案． BANによって学習したstudentがteacherの性能を超えることをVisionおよびLanguageのタスクで実験的に確認した． BANの学習手順 BANの学習手順の概要図は以下の通り． Image Classificationのタスクを想定してBANの学習手順を見ていく．学習データセットの画像・ラベルのペアを$(x, y) \in \mathcal{X} \times \mathcal{Y}$とすると，学習するモデルは$f(x): \mathcal{X} \rightarrow \mathcal{Y}$である．パラメータ$\theta_1$を持つネットワークを考えると，最適なパラメータ$\theta_1^{\ast}$は損失関数$\mathcal{L}$を最小化することで得られる． \begin{align} \theta_1^{\ast} = \argmin_{\theta_1} \mathcal{L} (y, f(x, \theta_1)). \end{align} $\theta^{\ast}$持つネットワークをteacherとして，次にパラメータ$\theta_2$を持つstudentを学習する際の損失関数を以下のように考える． \begin{align} \mathcal{L}(f(x, \argmin_{\theta_1} \mathcal{L} (y, f(x, \theta_1))), f(x, \theta_2)). \end{align} 更に，<a...