今日の話題

おいしさの定量化と機械学習日本酒の品質予測に機械学習を適用した事例

Satoru Shimofuji

下藤

高知県工業技術センター

Published: 2022-11-01

2022年の現在,AI,ビッグデータなどに代表されるデジタル技術が注目されるようになってずいぶんと久しい.なかでも機械学習やディープラーニングといった複雑な処理をする解析手法は,一昔前であれば高いマシンスペックが求められたり,解析におけるパラメータの条件設定が難しかったりと利用するだけでもハードルが高かった.

ここ最近では,解析がフリーソフトでも実行できる(1)1) The R Project for Statistical Computing: https://www.r-project.org/,解析条件設定も自動でできるライブラリがオープンソースでも存在する(2)2) M. Kuhn: J. Stat. Softw., 28, 1 (2008).,学術誌や書籍はもちろんインターネット上にも情報が数多くあるといった状況で,数学や統計解析の専門家でなくても利用しやすく,あらゆる分野で活用されている.食品分野においても,データ解析は特に「おいしさ」といった食味評価や品質評価の結果と物理化学的な分析値の関係のような,多数の要素間で複雑な関係性があると考えられている分野での活用が期待されている.

そこで,ここではおいしさの定量化と機械学習の活用のための基礎知識について日本酒の品質評価の定量化に機械学習を適用した事例を交えて紹介しつつ,そのなかで見えてきた筆者の考えるおいしさの定量化に向けた課題について述べたい.

・機械学習でなにができるか

「機械学習とはなにか」といった原則や定義の部分は線引き等が難しいので他の文献や専門書籍に譲る(3, 4)3) A. L. Samuel: IBM J. Res. Develop., 3, 211 (1959).4) T. Mitchell: “Machine Learning”. McGraw Hill, 1997, p. 2.として,「機械学習でできること」のひとつに,データから法則性を抽出することが挙げられる.抽出した法則性はモデルとして表現され,そのモデルにデータを入力することで予測や分類といった出力を行うことができる.このとき予測する対象のデータの種類によって,数量型のデータを用いる場合は回帰分析,カテゴリ型のデータを用いる場合は分類と区別されている.回帰分析におけるデータと解析の関係性を一番シンプルな単回帰分析を例として表すと「y=ax+b」となる.この例において,予測の対象として出力するデータ「y」を目的変数,目的変数を表現するために入力するデータ「x」を説明変数という.そして,目的変数を説明変数で表現するための数式(回帰モデル)が機械学習の担う部分となる.

機械学習ではそれぞれの手法で,特定の問題を解く手順としての単純な計算や操作の組み合わせ(アルゴリズム)が定義されている.アルゴリズムの代表的なものの一例として,ニューラルネットワーク,サポートベクターマシン,ランダムフォレストなどがある.それぞれのアルゴリズムの詳細(5)5) 秋庭伸也,杉山阿聖,寺田 学著,加藤公一監修:“機械学習図鑑”,翔泳社,2019, p. 276.は割愛するが,アルゴリズムによってデータ構造に対する得意不得意があるため,解析対象に同じデータ(目的変数,説明変数)を用いても予測精度に差が生じる場合がある.そのため,目的によってアルゴリズムを使い分けることが重要となる.さらに近年では,勾配ブースティングのような,従来のものより予測精度が高くなりやすいものであったり,解析にかかる時間が短縮されたりといった様々な特徴のアルゴリズムが開発されている.

・食品のおいしさを回帰分析で定量化する

ここからは「食品のおいしさ」の定量化に機械学習を適用した例を紹介する.ここでいう「食品のおいしさ」は,品質の良し悪し,好き嫌いといった嗜好性によるものだけでなく,味,香りなどの感覚の強度といったものまでを含めて考えている.

食品のおいしさ自体は官能評価によって数値化される.この数値化された評価データを目的変数,対象となる食品の物理化学的な分析データを説明変数とする回帰分析によって食品のおいしさの定量化が試みられている.その際の回帰分析手法として,手軽さや理解しやすさの観点から単回帰分析,重回帰分析といった線形回帰が用いられることが多かった.線形回帰は,目的変数と説明変数の関係が,「一方が増えればもう一方も増える(あるいは減る)」といった相関関係に近いものの解析に適している.(例えば食塩水において塩分が増えれば塩味が強まるといった濃度依存性のある関係)しかし,おいしさには,「ちょうどいい濃さ」が存在したり,「果物の甘味の強さには糖だけではなく香りも重要」といった多数の要素が複雑に関係していたりするような,非線形かつ多変量な関係があることは経験的に知られている(図1図1■食品のおいしさと分析データとの関係性の一例(イメージ)).このような成分と感覚の複雑な関係は日本酒においても存在する.例えば,甘味にはグルコース濃度だけでなく香りの強弱が影響することや,NaOHによる中和滴定量である「酸度」は酸の量を表す指標ではあるが,酸味の程度を表す指標ではないことなどが挙げられる.

図1■食品のおいしさと分析データとの関係性の一例(イメージ)

そのため,おいしさの定量化には線形回帰の代わりに機械学習のような非線形関係の解析が可能な手法を適用する必要があると考えられてきた(6)6) 守田愛梨:日本食品工学会誌,20, 71(2019)..実際に筆者らは日本酒の品質評価の定量化(目的変数に日本酒の品質評価データ,説明変数に日本酒の主要な成分値を用いた回帰分析)に線形回帰分析と機械学習を適用し,予測精度の比較を行ったところ,線形回帰よりも非線形回帰で予測精度が高くなることを明らかにしている(7)7) S. Shimofuji, M. Matsui, Y. Muramoto, H. Moriyama, R. Kato, Y. Hoki & H. Uehigashi: Nihon Shokuhin Kogakkaishi, 21, 37 (2020)..さらに,目的変数(品質評価)に対する説明変数(成分値)の寄与を確認したところ,重回帰分析では得られる係数(重回帰係数)が0付近と評価に関与がないとされる成分でも,機械学習では評価にとって重要と判断される成分(カプリル酸エチル,酢酸エチル)が見られることを報告している(図2図2■カプリル酸エチルと酢酸エチルの量と総合評価の関係).これはつまり,評価と成分の間に「ちょうどいい濃度」の関係があることを表しており,機械学習がその解析に有用であることが示されている.

図2■カプリル酸エチルと酢酸エチルの量と総合評価の関係

図中の重要度はランダムフォレストでの予測における指標であり,0から100までの値で重要な変数ほど大きい値で示される.これらの成分は重回帰係数が0付近であるため評価に関係がないように見えるが,機械学習では評価に寄与する重要な変数と判断されている.

・非線形解析における注意点

以上のように,非線形解析ができる機械学習はおいしさの定量化にとって非常に有用であるが,その活用に当たっては注意しなければならないことがある.

①過適合の問題

機械学習に限らず非線形の回帰分析は特定の状況に合わせて回帰モデルを作成してしまいやすい.これを過適合(オーバーフィッティング)という(図3図3■回帰モデルの適合度合いのイメージ).過適合が生じている場合,新しいデータに対する予測精度について保証ができないため,変数の寄与から得られる知見も限定的な意味のないものになってしまう.過適合を防ぐためには,あらかじめ回帰モデル作成用とは別のデータセット(目的変数と説明変数のデータの組み合わせ)を準備しておいて,そのデータセットに対して予測精度の検証を行う(汎化性能を確認する).回帰モデルにとって未知のデータにおいても予測精度が落ちない(過適合していない)ことを確認したうえで変数の寄与などの考察を行う必要があるため,試料数はある程度のボリューム(明確な基準はないが,筆者の感覚としては100~200点程度)があることが望ましい.

図3■回帰モデルの適合度合いのイメージ

②変数の寄与が理解しにくい

また機械学習は多くが非線形解析のため,各説明変数の影響を理解しづらい.例えばランダムフォレストにおいて得られたモデルに対する変数の寄与は0~100の値で示される重要度と呼ばれる指標で表される.この重要度には正負の符号はなく,その変数が増減することの直接的な影響はわからない.そこで筆者らは重回帰分析で得られる回帰係数のような正負の符号のある指標と組み合わせることで,評価傾向についての新しい知見を得ることができることを報告している(7)7) S. Shimofuji, M. Matsui, Y. Muramoto, H. Moriyama, R. Kato, Y. Hoki & H. Uehigashi: Nihon Shokuhin Kogakkaishi, 21, 37 (2020)..また,最近では特に「説明可能なAI」といった,機械学習による出力の理由を人間が理解できるようにすることをテーマにした研究が話題となっている.

③適用する機械学習の手法によって予測精度が大きく異なる

前述したとおり,機械学習はそのアルゴリズムによってデータに対する得意不得意があり,解析条件の設定によっても予測精度は大きく変化する可能性がある.予測精度が上がらないことが,単にデータ収集不足なのか解析条件が悪いためなのかを確認するためにも,複数の解析条件を検証する必要がある.この点において,筆者らは味覚センサーやにおい分析といった網羅分析データから成分値を予測する際に,用いる説明変数の種類や回帰分析手法を組み替えることで予測精度が向上することを示している(8)8) S. Shimofuji, M. Matsui, Y. Muramoto, H. Moriyama, Y. Hoki & H. Uehigashi: Nihon Shokuhin Kogakkaishi, 22, 15 (2021)..場合によっては機械学習よりも部分最小二乗法といった線形回帰の方が予測精度の高い成分もある.すべてのケースにおいて最適となる解析条件は存在しないため,どういった解析条件が適しているのかは,解析の都度確認する必要がある.

・おいしさの定量化精度のさらなる向上のために必要なこと

食品のおいしさの定量化について「機械学習という非線形の回帰分析手法を適用する」ことから予測精度の向上のためのアプローチを行ったが,回帰分析を構成する3つの要素である「目的変数」,「説明変数」,「解析手法」について,ひとつひとつを精査していくことで定量化の精度をより上げることができると考えられる.その一例として,評価データでは,5段階評価といった順序尺度データではなく比例尺度データでの収集,評価パネルや評価用語の選定,無理のない範囲で評価点数を増やすことなど.分析データでは,網羅分析データの収集,物性に関する分析データの活用など.解析手法では,データの選別,加工といった前処理,解析条件(ハイパーパラメータ)の最適化などといった課題があるというのが筆者の現状認識である.食品のおいしさを解明するためには正確なモデリングを行ったうえでの考察が必要であり,そのためには食品,人,解析技術と多岐に渡る分野を横断しての研究者・専門家同士の連携がますます重要となる.

Reference

1) The R Project for Statistical Computing: https://www.r-project.org/

2) M. Kuhn: J. Stat. Softw., 28, 1 (2008).

3) A. L. Samuel: IBM J. Res. Develop., 3, 211 (1959).

4) T. Mitchell: “Machine Learning”. McGraw Hill, 1997, p. 2.

5) 秋庭伸也,杉山阿聖,寺田 学著,加藤公一監修:“機械学習図鑑”,翔泳社,2019, p. 276.

6) 守田愛梨:日本食品工学会誌,20, 71(2019).

7) S. Shimofuji, M. Matsui, Y. Muramoto, H. Moriyama, R. Kato, Y. Hoki & H. Uehigashi: Nihon Shokuhin Kogakkaishi, 21, 37 (2020).

8) S. Shimofuji, M. Matsui, Y. Muramoto, H. Moriyama, Y. Hoki & H. Uehigashi: Nihon Shokuhin Kogakkaishi, 22, 15 (2021).