Excelで学ぶ最小二乗法

Mon, 24 Mar 2025 16:35:55 +0900

背景

機械学習を始めた頃に作った、5年前のスプレッドシートを見つけた。
内容は、最小二乗法の考え方を使って、キロメートルをマイルに変換する係数を求めるものだった。
久々に見返してみると、単純な例ではあるものの、最小二乗法や機械学習の基本を理解するにはちょうどよい題材だった。そこで、あらためて内容を整理しておく。

昔のファイル

Excelで、キロメートルからマイルへの変換係数を求めるファイルを作っていた。

解説

今回やることは、キロメートルをマイルに変換する係数を、最小二乗法の考え方で求めることである。
たとえば、100km は約 62.137mile である。
つまり、本来の変換式は次のようになる。

$$ mile = km \times 0.62137 $$

この $0.62137$ が、キロメートルをマイルに変換するための係数である。
ただし今回は、この係数を最初から使うのではなく、Excel上で少しずつ係数を更新しながら、正しい値に近づけていく。

やりたいこと

キロメートルを $x$、マイルを $y$ とする。
変換式を次のように置く。

$$ y = ax $$

ここで、$a$ が求めたい係数である。
今回の教師データは次の通りである。

$$ x = 100 $$

$$ t = 62.137 $$

$t$ は正解データ、つまり教師データである。
求めたいのは、次の式を満たす $a$ である。

$$ 62.137 = a \times 100 $$

普通に計算すれば、次のようになる

$$ a = \frac{62.137}{100} \\ a = 0.62137 $$

つまり、正解となる係数は $0.62137$ である
しかし今回は、あえてこの値を直接求めず、Excelで学習させるようにして近づけていく。

最小二乗法とは何か

最小二乗法とは、予測値と正解値のズレを二乗し、その値がなるべく小さくなるようにする方法
今回の予測値は $ax$
正解値は $t$
したがって、誤差は次のようになる

$$ ax - t $$

この誤差を二乗したものが、今回小さくしたい値となる

$$ (ax - t)^2 $$

Excelでは、この誤差の二乗がだんだん小さくなっていく様子をグラフで確認している

予測値を計算する

まずは、現在の係数 $a$ を使って予測値を計算する
数学の式で書けば次の意味になる

$$ y = ax $$

最初は当てずぽうの係数を当てはめる
たとえば、最初の係数を $a = 0.1$ とする
すると結果は、次のようになる

$$ y = 0.1 \times 100 \\ y = 10 $$

つまり、最初の予測では、100km を 10mile と予測していることになる
しかし、本当の値は 62.137mile である
この時点では、かなり大きく外れている

誤差を計算する

E列では、予測値と正解値の差を計算する
これを、数学の式では次の意味である

$$ ax - t $$

先ほどの例では、予測値が $10$だった
そして、正解値は $62.137$
なので、次のように誤差が求まる

$$ 10 - 62.137 = -52.137 $$

誤差がマイナスであるということは、予測値が正解値よりも小さいという意味となる

誤差の二乗を計算する

そこで、誤差の二乗を計算する。
これは、数学の式で書けば次の通り

$$ (ax - t)^2 $$

最小二乗法では、この値を小さくすることが目的となる
誤差をそのまま使わずに二乗する理由は、プラスの誤差とマイナスの誤差が打ち消し合わないようにするため
また、大きな誤差ほどより大きく評価されるため、誤差を小さくする方向がわかりやすくなる

係数を更新する

F列では、新しい係数 $a$ を計算している
これは、次のような意味となる

$$ a_{\text{new}} = a - \eta \times e \\ a_{\text{new}} = a - \eta(ax - t) $$

a_new: 新しいa
a: 現在のa
$\eta$: 学習率
e: 誤差

ここで、誤差 $e$ は次のように定義する。

$$ e = ax - t $$

そして、今回の学習率は $0.001$ である
最初の更新では、現在の係数が $0.1$、誤差が $-52.137$ なので、次のようになる

$$ a_{\text{new}} = 0.1 - 0.001 \times (-52.137) $$

計算すると、次の値になる。

$$ a_{\text{new}} = 0.152137 $$

誤差がマイナスなので、係数 $a$ は増える
これは自然な動きとなる
なぜなら、最初の予測値は $10$ であり、正解値 $62.137$ よりも小さすぎるから
予測値を大きくするには、係数 $a$ を大きくする必要がある

係数が正解に近づいていく

最初の係数は次の値である。

$$ a = 0.1 $$

一方、本当の係数は次の値である。

$$ a = 0.62137 $$

Excelでは、係数が次のように少しずつ更新されていく。

このように、係数 $a$ が少しずつ $0.62137$ に近づいていく。
係数が正しい値に近づくことで、予測値も正解値に近づいていく。

グラフからわかること

グラフでは、横軸に試行回数、縦軸に誤差の二乗を取っている
最初は誤差が大きい
これは、最初の係数 $a = 0.1$ では、100km を 10mile と予測してしまうから
正解は 62.137mile であるため、最初の誤差はかなり大きい
しかし、試行回数が増えるにつれて、係数 $a$ が更新される。その結果、予測値が正解値に近づき、誤差の二乗は急激に小さくなる
この「誤差が小さくなっていく様子」が、最小二乗法の基本的なイメージである

機械学習との関係

今回の例は非常にシンプル
入力は1つだけ（$x=100$）
正解も1つだけ（$t=62.137$）
求める係数も1つだけ（$a$）
しかし、考え方は機械学習の基本と同じ
流れは次の通り:
1. 適当な係数から始める
2. その係数を使って予測する
3. 予測値と正解値のズレを計算する
4. 誤差が小さくなるように係数を更新する
5. この処理を何度も繰り返す
今回の例では、まず適当な係数として $a = 0.1$ から始めている
次に、その係数を使って予測する $$ y = ax $$
そして、予測値と正解値のズレを計算する $$ e = ax - t $$
最後に、誤差が小さくなるように係数を更新する $$ a_{\text{new}} = a - \eta(ax - t) $$
この流れを何度も繰り返すことで、係数はだんだん正解に近づいていく
つまり、今回のExcelは、非常に小さな機械学習モデルを表していると言える

厳密な最小二乗法との違い

注意事項として、係数の更新式をわかりやすくするために、今回は次の形にしている

$$ a_{\text{new}} = a - \eta(ax - t) $$

しかし、最小二乗法では、本来は誤差そのものではなく、誤差の二乗を小さくする
誤差を $e$ とすると、次のようになる

$$ e = ax - t $$

そのため、誤差の二乗、つまり損失 $E$ は次のように定義できる

$$ E = e^2 = (ax - t)^2 $$

係数 $a$ をどの方向に更新すれば損失 $E$ が小さくなるかを知るために、$E$ を $a$ で微分する
すると、次のようになる

$$ \frac{dE}{da} = 2x(ax - t) $$

したがって、厳密な勾配降下法では、更新式は次のようになる

$$ a_{\text{new}} = a - \eta \cdot 2x(ax - t) $$

つまり、Excelで使った簡易版の更新式とは少し形が異なる
また、損失関数を次のように置くことも多い
なぜ $\frac{1}{2}$ を使うかというと、微分したときに $2$ が消えて、式が簡単になるからである

$$ E = \frac{1}{2}(ax - t)^2 $$

この場合、$E$ を $a$ で微分すると、次のようになる

$$ \frac{dE}{da} = x(ax - t) $$

したがって、更新式は次の形になる

$$ a_{\text{new}} = a - \eta x(ax - t) $$

今回のExcelでは、$x = 100$ が固定である
そのため、$x$ の影響を学習率側に含めた簡易版として、次の更新式を使っていると考えられる