機能性表示食品制度が2015年4月1日に開始され，2019年6月30日時点で，消費者庁のホームページ⁽¹⁾1) 消費者庁ホームページ：機能性表示食品制度届出データベース．https://www.caa.go.jp/policies/policy/food_labeling/foods_with_function_claims/ (2019).に2,170件の届出が登録されている．この有効性の科学的根拠の資料として，臨床試験の結果，もしくは研究レビュー（事実上，システマティック・レビュー（SR）のこと）のいずれかが必須とされ，その大多数（約90％）がSRを用いて届出をしている．本論では，まず機能性表示食品制度とSRについて概説する．そして，われわれの研究成果を踏まえて届出されているSRの質について解説する．

機能性表示食品制度とは

2013年6月21日，食品を摂取する際の安全性および一般消費者の自主的かつ合理的な食品選択の機会を確保するため，従来の食品衛生法，日本農林規格（JAS）法，健康増進法の食品表示に関する規定を統合し，食品表示に関する包括的かつ一元的な制度を創設することを目的とする「食品表示法」が成立し，2015年4月1日に施行された．

食品表示法の第2章（第4条・第5条）に基づく「食品表示基準」の施行により，従来は任意であった食品の栄養表示が原則として義務化された．また，2013年6月14日に閣議決定された「日本再興戦略—JAPAN is BACK」では「食の有する健康増進機能の活用」として，「規制改革実施計画」では「いわゆる健康食品をはじめとする保健機能を有する成分を含む加工食品および農林水産物の機能性表示の容認」として，食品の3次機能（体調調節機能）に係る新たな機能性表示制度の創設が謳われた．このような中で，2014年7月30日に消費者庁より「食品の新たな機能性表示制度に関する検討会報告書」が公表され，2015年4月から「機能性表示食品制度」（本制度）が開始された．薬局やコンビニエンスストア，スーパーマーケットなどで，「機能性表示食品」とパッケージされた多くの製品（生鮮食品も含む）が販売されている．

本制度は，消費者庁の定めるルールに則り，食品関連事業者（食品表示法　第2条第3項第1号）の責任において，安全性および機能性に関する一定の科学的根拠に基づいて消費者庁長官に届出を行うことで，特定の保健の目的が期待できる旨の表示を行うことが可能となる制度である．従来，機能性の表示は特定保健用食品（トクホ製品）と栄養機能食品（ビタミン，ミネラルなど）においてのみ可能であったが，本制度の施行により，機能性を表示した商品の選択肢が増え，消費者がそうした商品の正しい情報を得て適切に選択できることが期待されている．

本制度の最も特徴的な点は，「届出された有効性を含むすべての情報が消費者庁のホームページ（HP）に公開される」ということであり，世界に類を見ない透明性の高さである．ほかにも次のような特徴を有している．一つ目は，疾病に罹患していない人（未成年者，妊産婦および授乳婦を除く．）を対象とした食品であること．2つ目は，生鮮食品を含め，すべての食品が対象であること．3つ目は，安全性および機能性の根拠に関する情報，健康被害の情報収集体制など必要な事項が商品の販売前（少なくとも60日以上前）に届出者から消費者庁長官に提出されなければならないこと．4つ目は，特定保健用食品とは異なり，国が安全性や機能性を審査するわけでなく，届出者の責任において表示を行うこと（届出制）．5つ目は，前述のように届出された情報はすべて消費者庁のHPで公開され，事後に修正がなされた場合には，その履歴情報（微修正も含む）もすべて公開されることである．

システマティック・レビュー（SR）とは？

人を対象とした臨床・疫学研究の分野において，科学的根拠をエビデンスと称するが，それには津谷⁽²⁾2) 津谷喜一郎：Therapeutic Research, 24, 1415 (2003).が示すように次の3つの流れがある（図1図1■エビデンスの3つの流れとシステマティック・レビュー）．ランダム化並行群間比較試験（Randomized controlled trial; RCT）などの介入研究，あるいはコホート研究やケース・コントロール研究などの観察研究からなる一次研究が，「エビデンスをつくる」部分に相当する．一次研究の個々の結果についての質評価や，複数の一次研究の結果を統計的に一つにまとめるメタ分析，さらに批判的吟味をしながら，ある治療効果があるのかないのかを明確にするのがシステマティック・レビュー（SR），「エビデンスをつたえる」部分である．そのSRの情報をもとにして，「エビデンスをつかう」のが，臨床の現場や行政官・ガイドラインなどの作成者である．

図1■エビデンスの3つの流れとシステマティック・レビュー

（津谷喜一郎．EBMにおけるエビデンスの吟味．Therapeutic Research, 24, 1415–1422 （2003）より一部改変作図）

本制度では，ある機能性関与成分についてSRを実施して，肯定的な結果，つまり有効と判断される場合に限って製品パッケージにその機能を表示することができる．

ここで注目すべきは，RCTに基づくSRの場合には，図2図2■研究デザインとエビデンス・グレーディングに示すようにエビデンス・グレーディング（格付け）があることだ．適切な方法で研究が実施された場合，真実を示す可能性が高いのが上位ということになる．たとえば，最上位のSRの結果と，症例集積研究（Case report）の結果が相反する場合には，上位の結果を採択するということである．ちなみに，患者データに基づかないエキスパート・オピニオンは最下位にランクされており，確固たるエビデンス主義であることが理解できる．

図2■研究デザインとエビデンス・グレーディング

このようにSRはエビデンスの最上に位置するので，読者側（アカデミア研究者，食品に関連する企業の関係者など）は，その結果をより注視する．したがって，「ある食品の機能性はヒトにおいて有効か否か」を結論づけるSRは，正しくエビデンスをつたえるという極めて重要な役割を担っており，企業などの届出者は，大きな社会的責任があることを意味している．

SRと従来型の総説との差異

SRと従来型の「総説」（narrative review）との違いを図3図3■総説（従来からのレビュー）とシステマティック・レビューとの差異に整理⁽³⁾3) 上岡洋晴：基礎・総論編1.　EBM概要：EBMにおけるSRの位置づけ，上岡洋晴，折笠秀樹編集，“機能性表示食品適正な研究レビューのための必携マニュアル”，ライフサイエンス出版，2016, pp. 2–4.した．「総説」は学術雑誌などに関するデータベースを用いて文献検索を行うが，採用しようとする研究のデザイン（全体の枠組み）や，中身を示すPI（E）CO*¹を明確に設定せずに行うなど，その著者の意図する方向性の論文を集めがちであることが指摘されていた．

図3■総説（従来からのレビュー）とシステマティック・レビューとの差異

（上岡洋晴．基礎・総論編1. EBM概要：EBMにおけるSRの位置づけ．In: 上岡洋晴，折笠秀樹編集．機能性表示食品適正な研究レビューのための必携マニュアル：ライフサイエンス出版，2016, p. 2–4より一部改変作図）

また，研究デザインを事前に明確化していないことや，RCTの結果も，エビデンス・グレーディングで下位の研究デザインの結果も混ぜ，それぞれ同等に結論を導く素材にしていたことも問題視されていた．さらには，採用した個々の研究の質評価（バイアスがどれほどあるかの評価）を実施していないことや，個々の結果を統合するメタ分析も実施しておらず，前述のように研究デザインを無視して単純に有効・無効を1票として数えるなど，「それが科学的か？」という疑問もあった．以上のように，従来型の総説は，その著者の意図する結果に導かれやすいという深刻な欠点があった．

一方，SRの場合には，世界的なデータベースを複数用い，事前にPI（E）COなどの適格基準を明確にしつつ，基本的にはエビデンス・グレーディングの高いRCTだけを選択的・網羅的に収集する．採用した研究に関するバイアスリスクの評価を行って，質の低い研究を除外することで，複数の研究の結果をまとめるときに，真実とかけ離れないようにする対処がなされる．このように，SRでは，たとえ学術雑誌に掲載された研究結果であっても，それを鵜呑みにしないというのが基本スタンスである．SR*²は，著者の意図する方向へ導くようなバイアスが入りにくい科学的な総説と言い換えることができるだろう．

SRの報告の質：2016年の消費者庁報告と2019年のFFC-SR2の報告

SRの「報告の質」という章立てであるが，これはSRとしての書き方（reporting）の適正性を意味している．もちろん，SRの「研究自体の質」も評価があるが，それは次章で解説する．

SRの報告方法に関しては，世界標準としてプロトコールについてはPRISMA-Pチェックリスト⁽^{4, 5)}4) D. Moher, L. Shamseer, M. Clarke, D. Ghersi, A. Liberati, M. Petticrew, P. Shekelle & L. A. Stewart; PRISMA-P Group: Syst. Rev., 4, 1 (2015).5) 上岡洋晴，津谷喜一郎，折笠秀樹：薬理と治療，47，1177（2019）．，最終報告についてはPRISMAチェックリスト⁽^{6, 7)}6) D. Moher, A. Liberati, J. Tetzlaff & D. G. Altman, for PRISMA Group: PLOS Med., 6, e1000097 (2009).7) 金子善博，津谷喜一郎，中山健夫（訳）：システマティック・レビューおよびメタアナリシスの報告における望ましい報告項目：PRISMA声明，中山健夫，津谷喜一郎，臨床研究と疫学研究のための国際ルール集Part 2, ライフサイエンス出版，2016, pp. 140–147.が公表されている．本制度では，当該ガイドライン⁽⁸⁾8) 消費者庁ホームページ：機能性表示食品の届出等に関するガイドライン（令和元年7月1日版），https://www.caa.go.jp/policies/policy/food_labeling/foods_with_function_claims/pdf/food_with_function_clains_190701_0001.pdf (2019).においてPRISMAチェックリストに準拠して記載するよう示されている．

1. 2016年の消費者庁の検証事業報告書

2016年7月7日に消費者庁から「機能性表示食品制度における機能性に関する科学的根拠の検証：届け出られた研究レビューの検証事業報告書（検証事業報告書）」⁽⁹⁾9) 消費者庁ホームページ：機能性表示食品制度における機能性に関する科学的根拠の検証：届け出られた研究レビューの検証事業報告書，https://www.caa.go.jp/policies/policy/food_labeling/about_foods_with_function_claims/pdf/about_food_with_function_report_180416_0001.pdf (2016).が公表され，SRの報告方法を中心として，その問題点や改善すべき事項が明らかにされた．検証事業のワーキンググループが，本制度開始直後の2015年4月1日から10月31日までの7カ月間に登録されたすべてのSR 51編を対象として，PRISMAチェックリストをさらに再分割・本制度のSRに適応させた「PRISMAチェックリスト：機能性表示食品のための拡張版（PRISMA機能性表示食品のための拡張版）」に基づき，記述の有無や不備のある点をチェック項目ごとに示した（表1表1■「PRISMA声明チェックリスト：機能性表示食品のための拡張版」に基づく記述の不備（文献10より転載））．

表1■「PRISMA声明チェックリスト：機能性表示食品のための拡張版」に基づく記述の不備（文献10より転載）
項目番号	「PRISMA声明チェックリスト：機能性表示食品のための拡張版」における評価項目	検証事業前届出SR（n＝51）			検証事業後届出SR（n＝104）			p Value
		不備			不備
		度数	率	ラベリング**	度数	率	ラベリング**
#1	タイトル	0	0	A	1	1.0	A	1.00
#2	構造化抄録	33	64.7	D	98	94.2	D	＜0.01
#3	論拠	25	49.0	C	73	70.2	D	0.01
#4a	参加者の記述	6	11.8	A	29	27.9	B	0.02
#4b	介入の記述	6	11.8	A	19	18.3	A	0.36
#4c	比較の記述	8	15.7	A	21	20.2	B	0.66
#4d	アウトカムの記述	6	11.8	A	33	31.7	B	＜0.01
#5a	レビュー・プロトコールの有無	26	51.0	C	40	38.5	B	0.14
#5b	プロトコールへのアクセスの可否	49	96.1	D	100	96.2	D	1.00
#5c	プロトコールのweb address, 登録番号の有無	49	96.1	D	102	98.1	D	0.60
#6a	研究の特性の記述	17	33.3	B	56	53.8	C	0.02
#6b	報告の特性の記述	22	43.1	C	46	44.2	C	0.90
#7	情報源	22	43.1	C	60	57.7	C	0.09
#8	検索	8	15.7	A	13	12.5	A	0.62
#9a	スクリーニング方法に関する記述	21	41.2	C	43	41.3	C	0.98
#9b	適格性に関する記述	12	23.5	B	29	27.9	B	0.56
#9c	採択基準に関する記述	17	33.3	B	29	27.9	B	0.49
#10	データ収集プロセス	24	47.1	C	61	58.7	C	0.17
#11	データ項目	13	25.5	B	18	17.3	A	0.23
#12a	バイアスリスク	29	56.9	C	83	79.8	D	＜0.01
#12b	非直接性	26	51.0	C	83	79.8	D	＜0.01
#12c	不精確	16	31.4	B	84	80.8	D	＜0.01
#12d	非一貫性	22	43.1	C	85	81.7	D	＜0.01
#13	要約尺度	16	31.4	B	30	28.8	B	0.75
#14a	研究結果の統合方法の記述*	4	44.4	C	0	0.0	A	0.02
#14b	一致性の尺度の記述*	2	22.2	B	1	7.7	A	0.54
#15a	臨床試験登録の検索	40	78.4	D	72	69.2	D	0.23
#15b	著者への問合せ	47	92.2	D	92	88.5	D	0.58
#15c	（事後メタアナリシス時）ファンネルプロット	1	11.1	A	1	7.7	A	0.55
#15d	研究内での選択的報告及びその他の記述	24	47.1	C	86	82.7	D	＜0.01
#16	追加的解析*	3	33.3	B	2	15.4	A	0.61
#17	研究の選択	1	2.0	A	5	4.8	A	0.66
#18	研究の特性	10	19.6	A	39	37.5	B	0.02
#19	研究内のバイアス・リスク	14	27.5	B	15	14.4	A	0.08
#20a	各介入群の単純な要約データの記述	24	47.1	C	26	25.0	B	＜0.01
#20b	効果の推定量と信頼区間の記述*	2	22.2	B	1	7.7	A	0.54
#21	結果の統合*	1	11.1	A	1	7.7	A	1.00
#22	全研究のバイアス・リスク	17	33.3	B	48	46.2	C	0.13
#23	追加的解析*	5	55.6	C	1	7.7	A	0.02
#24	エビデンスの要約	39	76.5	D	89	85.6	D	0.18
#25a	研究レベルとアウトカムレベルでの限界の記述	33	64.7	D	70	67.3	D	0.75
#25b	レビューレベルでの限界の記述	30	58.8	C	49	47.1	C	0.17
#26	結論	39	76.5	D	86	82.7	D	0.39
#27a	SRの資金源と，その他の支援	15	29.4	B	54	51.9	C	＜0.01
#27b	SRにおける資金提供者の役割	12	23.5	B	55	52.9	C	＜0.01
メタ分析を実施したSRのみが対象．*不備率として，A: 0から20％未満，B: 20から40％未満，C: 40から60％未満，D: 60％以上のSRで該当．χ²検定による有意確率．セルが10未満を含む場合にはフィッシャーの直接確率計算法により算出．

検証事業報告書では，PRISMAチェックリスト45項目についての不備率のラベリングとして「A：不備率として0から20％未満のSRで不備がある」，「B：不備率として20％以上40％未満のSRで不備がある」，「C：不備率として40％以上60％未満のSRで不備がある」，「D：不備率として60％以上のSRで不備がある」としている．総じて不備の多いSRが多いことがわかる．

不備に関しては，評価者にとって判定が難しい書きぶり，たとえばある項目に関して「書いてあるといえば書いてあるが，十分な情報とはいえない」や，「書いてはあるが，その意味がわからない」というSRが存在することが明らかになった．SRはある介入（機能性関与成分）の有効性を示すエビデンスの集大成であるので，不明瞭な記述は回避すべきであり，誰が見ても必要な情報がすぐに把握できるSRでなければならないことが報告書で述べられている．

2. 2018年のFFC-SR2*³による再検証研究の結果

前述の検証事業報告書⁽⁹⁾9) 消費者庁ホームページ：機能性表示食品制度における機能性に関する科学的根拠の検証：届け出られた研究レビューの検証事業報告書，https://www.caa.go.jp/policies/policy/food_labeling/about_foods_with_function_claims/pdf/about_food_with_function_report_180416_0001.pdf (2016).に加え，さらに2016年12月には本制度のSR実施のための啓発図書⁽³⁾3) 上岡洋晴：基礎・総論編1.　EBM概要：EBMにおけるSRの位置づけ，上岡洋晴，折笠秀樹編集，“機能性表示食品適正な研究レビューのための必携マニュアル”，ライフサイエンス出版，2016, pp. 2–4.も発刊され，本制度に興味関心のある企業をはじめ多様な業界団体，SRの代行実施業者，アカデミア研究者などに食品としての適切なSR報告の方法が周知されたと考えられた．制度開始から1年以上経過し，新規の届出SRは，当初の頃のSRよりも報告の質は改善・優良なものになっているだろうと推測された．

そこで，筆者らFFC-SR2研究グループは，検証事業実施後にSRの報告の質が向上したかどうかを，「PRISMAチェックリスト：機能性表示食品のための拡張版」を用いて明らかにすることを目的とした検証事業の前後比較研究を行った⁽¹⁰⁾10) 上岡洋晴，津谷喜一郎，折笠秀樹，FFC-SR2研究グループ：薬理と治療，47, 353, (2019).．消費者庁ホームページに掲載された機能性表示食品の届出SRを対象とし，検証事業と同じく期間7カ月として，2017年7月1日から2018年1月31日までに掲載された中で，すべてのSR104編（重複したSRは除外）を対象とし，「検証事業後SR」とした．比較のために検証事業で用いた51編は「検証事業前SR」とした．

「検証事業後SR」としての期間設定の理由として，検証事業の報告書は2016年7月7日に公開されたが，前述の組入開始となる2017年7月はそれから1年経過していることを意味しており，届出者等に浸透するのに十分な期間だと考えた．つまり，届出者が作成中あるいは計画中のSRに検証事業における指摘事項を反映させて，良好な報告にするために十分な猶予期間であると判断した．

検証事業前後を含めて，表1表1■「PRISMA声明チェックリスト：機能性表示食品のための拡張版」に基づく記述の不備（文献10より転載）に全体の結果を示した．45項目の不備率のラベリングは検証事業の方法と統一している．有意確率は，前後比較のχ²検定（またはフィッシャーの直立確率計算法）であり，有意に向上したか悪化したかの判断指標となる．なお，メタ分析のありとなしの分割した結果と個々のSRの評価結果は紙面の都合のため割愛した．

表1表1■「PRISMA声明チェックリスト：機能性表示食品のための拡張版」に基づく記述の不備（文献10より転載）の見方は，たとえば「#1タイトル」において，「SR」か「メタ分析」か，あるいは両方であるかが明確にわかるように記載することが求められているが，前後ともに不備率は低く（ラベリングA），この点においては良好であることを意味している．「#2構造化抄録」においては，背景・目的・検索で用いたデータ源・研究の適格基準・PICO・研究の評価と統合法・結果・限界・結論重要な知見の意味合い・SRの登録番号を含めることが求められているが，ラベリングはDであり，検証事業後SRのほうが有意に不備率が増加していることを意味している．

このように個々のチェック項目を見ていくと，「依然としてラベリングがCやDのものが多く，さらには不備率が高まっていた」という仮説と相反する結果となった．

当然ながら，本研究開始前には，後発のSRは明らかに報告の質は向上しているだろうと仮説を立てていた．部分的には向上が進まない項目，たとえば「プロトコールの事前登録（世界的なSR専用のデータベースに登録をして，そのプロトコールどおりに実施する）」など，若干は不備が多い項目も存在しているものの，ほとんどが改善していると想定していたが，表1表1■「PRISMA声明チェックリスト：機能性表示食品のための拡張版」に基づく記述の不備（文献10より転載）の結果のようにそうした水準には達しておらず，報告の質の低いSRが多かった．

この理由を把握することが課題解決に向けて最も重要である．推測に過ぎないものの考察すると，本制度の発足当初は食品業界の大企業の届出が中心で，ある一定レベルの臨床研究に関する知見があり，まずまずの質のSRであったが，以後2016から2018年にかけて爆発的な数の届出が行われ，質の低いSRを模倣，あるいは使い回したSRが公開されている可能性がある．もっとわかりやすく述べれば，「ある機能性関与成分Xに関して，企業AのSRがすでに消費者庁のHPに掲載されているのだから，そのXを最終製品に入れて販売するには，そのSRをなぞってやれば問題はなく，届出が完了するのではないか」ということで，全く別の複数の企業（B社，C社，D社…）がXに関してSRを低い質のままで出していることが全体としての質低下を助長しているのではないかと考えられる．

また，最も基本的な理由は，検証事業報告や前述の参考文献をよく読んでいない，あるいは理解できていないままで，有効性の根拠資料として形式だけSRらしく設えて提出してしまっていることだと考えられる．本制度はあくまでも届出制であり，消費者庁は報告内容に関する審査は行わないことが大前提なので，こうした状況に陥っていると考えられる．津谷は「エビデンスの総体を対象とするSRには賞味期限がある．健康食品の承認・届出ともに，再審査／再評価に類する制度があってもよいのではないか．」⁽¹¹⁾11) 津谷喜一郎：薬理と治療，47, 9 (2018).と述べている．

機能性表示食品制度におけるSRの「研究の質」

「SRの研究自体の質」を評価するツールに関しては，FFC-SR2が2017年に実施した研究⁽¹²⁾12) H. Kamioka, K. Tsutani, H. Origasa, T. Yoshizaki, J. Kitayuguchi, M. Shimada, W. Tang & H. Takano-Ohmuro: Nutr. Res., 40, 21 (2017).で用いた「AMSTARチェックリスト⁽^{13, 14)}13) B. J. Shea, J. M. Grimshaw, G. A. Wells, M. Boers, N. Andersson, C. Hamel, A. C. Porter, P. Tugwell, D. Moher & L. M. Bouter: BMC Med. Res. Methodol., 15, 1 (2007).14) 折笠秀樹，上岡洋晴，津谷喜一郎（訳）：AMSTAR: システマティック・レビューの方法論的な質を評価するための測定ツール，中山健夫，津谷喜一郎，臨床研究と疫学研究のための国際ルール集Part 2, ライフサイエンス出版，2016, pp. 148–155.」に従った．AMSTARチェックリストは11項目からなるチェックリストで，「デザインは“あらかじめ”提示されたか？」，「研究の選択とデータの抽出は複数で行われたか？」，「包括的な文献検索がなされたか？」，「出版形態（灰色文献など）が組入れ基準に用いられたか？」，「（組入れられたおよび除外された）研究リストは提示されたか？」，「組入れられた研究の科学的な質は評価され，記録されていたか？」，「組入れられた研究の科学的な質は，結論を導く際に適正に利用されたか？」，「研究結果を統合するのに用いられた方法は適正だったか？」，「出版バイアスの可能性は評価されたか？」，「利益相反は明示されたか？」で構成され，11点満点で評価する．前述のPRISMAチェックリストは，報告の質を高めるために開発されており，各項目における記述漏れがないようにするための，いわゆるチェックリストである．また，そもそも合計点での高低を評価するものではない．一方，AMSTARチェックリストは，個々の項目で評価するのに加えて，合計点によってあるSR全体の研究の質を評価するのに使用される．

FFC-SR2は，2015年4月1日から同年10月27日までに消費者庁ホームページに掲載された47編のSRと，2017年7月1日から2018年1月31日までに掲載された104編のSR（前述と同じ）についての前後比較を行った⁽¹⁵⁾15) H. Kamioka, K. Tsutani, H. Origasa, T. Yoshizaki, J. Kitayuguchi, M. Shimada, Y. Wada & H. Takano-Ohmuro: Nutrients, 11, 1583 (2019).．その結果，合計得点において，検証事業前SRでは6.2±1.8（平均±標準偏差）点であり，検証事業後SRでは5.0±1.9点で有意に質が低下していた（図4図4■AMSTARチェックリストによる消費者庁の検証事業前後におけるシステマティック・レビューの質の変化（合計得点）文献12と15を合わせて作図）．これは，PRISMAチェックリストと全く同様な傾向を示していた（個々の項目の結果は割愛）．研究の質は，特に事前のプロトコールで決まるため，世界標準とされるPRISMA-Pチェックリスト⁽^{4, 5)}4) D. Moher, L. Shamseer, M. Clarke, D. Ghersi, A. Liberati, M. Petticrew, P. Shekelle & L. A. Stewart; PRISMA-P Group: Syst. Rev., 4, 1 (2015).5) 上岡洋晴，津谷喜一郎，折笠秀樹：薬理と治療，47，1177（2019）．に基づいて計画，プロトコール通りに実施，そしてPRISMAチェックリストに基づいて結果を報告するという一連の流れが重要だと考えられる．

図4■AMSTARチェックリストによる消費者庁の検証事業前後におけるシステマティック・レビューの質の変化（合計得点）文献12と15を合わせて作図

得点が高いほど，研究の質が高い．検証事業実施後のほうが有意に質が低下した．

おわりに

1. SRについて

2011年2月に立ち上がったSRのための国際登録ウエブサイト“PROSPERO”（International Prospective Register of Ongoing Systematic Reviews」では，2015年時点で10,000件，そして僅か1年後の2016年時点では，倍の20,000件（107か国）の登録がなされた⁽¹⁶⁾16) International Prospective Register Of Systematic Reviews: PROSPERO REGISTRATIONS REACH 20,000. URL: https://www.crd.york.ac.uk/PROSPERO/#aboutpage (2016).．また，2016年のRiazによる報告では，1994年に386編であったメタ分析は，2014年には8,203編と20倍以上になっている⁽¹⁷⁾17) I. B. Riaz, M. S. Khan, H. Riaz & R. J. Goldberg: Am. J. Med., 129, e11 (2016).．膨大な数のSRが世界中で生産されるなかで，研究の質と報告の質の向上が求められている．

こうしたなかで，2017年に先のAMSTARチェックリストをバージョンアップしたAMSTAR 2が開発された⁽^{18, 19)}18) B. J. Shea, B. C. Reeves, G. Wells, M. Thuku, C. Hamel, J. Moran, D. Moher, V. Tugwell, E. Kristjansson & D. A. Henry: BMJ, 358, j4008 (2017).19) 上岡洋晴，折笠秀樹，津谷喜一郎：薬理と治療，46, 1785 (2018).．16のチェック項目からなり，そのうち次の重大領域，「レビューの実施前にプロトコールは登録されたか（#2）」，「文献検索は適正か（#4）」，「個々の研究除外の妥当性（#7）」，「レビューに組み入れられた個々の研究のバイアスリスク（#9）」，「メタ分析方法の適正性（#11）」，「レビューの結果を解釈するうえでのバイアスリスクの考慮（#13）」，「パブリケーション・バイアスの存在とその影響の評価（#15）」を含んでいる．たとえば，プロトコールを事前登録していないだけで，ほかの項目の不備の有無にかかわらず，そのSRの信頼性評価（質）は4段階の中で下から2番目の「Low（低）：そのSRは，重大な欠陥があり，関心のある疑問に対する利用可能な研究結果の正確かつ包括的な要約を提供していないかもしれない．」となる．

ちなみに，もし，それに加えて別の重大領域，たとえば「レビューに組み入れられた個々の研究のバイアスリスク（#9）」にも不備がある場合には，「Critically low（極めて低）：そのSRは，重大な欠陥があり，利用可能な研究の正確かつ包括的な要約していると信頼すべきではない．」，換言すれば，そのSRの結果は全く信用できない，ということを示している．

このように世界的には，SRの質はこうしたツールによってより厳密化しつつ発展すると予想される．本制度におけるSRでは，まだこのAMSTAR 2での評価はなされてないが，評価されるとほとんどが前述のような深刻な評価が下されると考えられる．FFC-SR2は，機能性表示食品のSRもその世界標準に達することができるよう，評価研究を継続する予定である．

2. 有効性に関する適正な報告と企業倫理ついて

本制度は，機能性表示をすることで食品の販売促進につなげる，いわば「成長戦略」の一翼を担うことが期待されているが，常に消費者目線にたった制度でなければならない．届出をする側の企業等は，適正に安全性や有効性を語る義務があり，その倫理観が問われている⁽²⁰⁾20) 上岡洋晴：細胞，49, 649 (2017).．

機能性表示食品のSRに関する一連の研究により，「日本人が実施するSRは適正である」という科学的根拠と，「消費者が正しい情報を得て，消費行動のための意思決定をできる」という行政的観点から，本制度において有効性を証明するためのSRの質を高める対応が改めて必要であることが明らかになった．

そのためには，臨床・疫学研究方法論に携わるアカデミア研究者の科学的視点からの議論・指摘・支援，消費者からなる組織・団体の確からしさを検討する取り組み，マスコミ（医学系研究の専門記者など）によるチェックや，何らかの疑義が生じた場合には届出者へのインタビューも必要だと考えられる．そして何より消費者に真摯に向き合うために，届出者が常に襟を正すことが重要である．

消費者庁は，消費者への啓発・教育を推進しているが，消費者自らが，商品に関して賢く安全性や有効性を見極められるように栄養・食事に関する知識を得ることが必要だと考えられる．