その人工知能は本当に信頼できるのか? 人工知能の性能を正確に評価する方法を開発 概要人工知能 (AI) によるビッグデータ解析は 医療現場や市場分析など社会のさまざまな分野での活用が進み 今後さらなる普及が予想されています また 創薬研究などで分子モデルの有効性を予測する場合にも AI は主要な検証

Similar documents
刺激 反応マトリクスから求まる指標 入力 : 刺激実際のクラス negative positive 出力 : 反応観察者が判断したクラス positive negative TP ( ) FP ( ) FN ( ) TN ( ) ü Sensitivity( 感度 ) ü Specificity(

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

Microsoft PowerPoint 古川杉本SASWEB用プレゼン.ppt

スライド 1

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

線形システム応答 Linear System response

スライド 1

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

ムーアの法則に関するレポート

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

<4D F736F F F696E74202D D58FB08E8E8CB15F88F38DFC FC92F994C532816A>

報道関係者各位 平成 26 年 5 月 29 日 国立大学法人筑波大学 サッカーワールドカップブラジル大会公式球 ブラズーカ の秘密を科学的に解明 ~ ボールのパネル構成が空力特性や飛翔軌道を左右する ~ 研究成果のポイント 1. 現代サッカーボールのパネルの枚数 形状 向きと空力特性や飛翔軌道との

PowerPoint プレゼンテーション

<4D F736F F D CB48D655F94928D95445F90488E9690DB8EE68AEE8F802E646F63>

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

[5] [6] [7 10] 2 [5] (RQ:Research Question) RQ1:? RQ2:? Commit Guru Commit Guru [1] Emad Shihab Web Commit Guru [10] Number of Subsystems(

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft Word - 44_2

(c) (d) (e) 図 及び付表地域別の平均気温の変化 ( 将来気候の現在気候との差 ) 棒グラフが現在気候との差 縦棒は年々変動の標準偏差 ( 左 : 現在気候 右 : 将来気候 ) を示す : 年間 : 春 (3~5 月 ) (c): 夏 (6~8 月 ) (d): 秋 (9~1

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313691E63589F194E497A682C695AA8A84955C2E >

日本外傷歯学会認定医(平成24年11月30日付) H

<4D F736F F D204E AB38ED2976C90E096BE A8C9F8DB88A B7982D1928D88D38E968D >

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

EBNと疫学

厚生労働科学研究費補助金(循環器疾患等生活習慣病対策総合研究事業)

する距離を一定に保ち温度を変化させた場合のセンサーのカウント ( センサーが計測した距離 ) の変化を調べた ( 図 4) 実験で得られたセンサーの温度変化とカウント変化の一例をグラフ 1 に載せる グラフにおいて赤いデータ点がセンサーのカウント値である 計測距離一定で実験を行ったので理想的にはカウ

Microsoft Word - 博士論文概要.docx

抗菌薬の殺菌作用抗菌薬の殺菌作用には濃度依存性と時間依存性の 2 種類があり 抗菌薬の効果および用法 用量の設定に大きな影響を与えます 濃度依存性タイプでは 濃度を高めると濃度依存的に殺菌作用を示します 濃度依存性タイプの抗菌薬としては キノロン系薬やアミノ配糖体系薬が挙げられます 一方 時間依存性

untitled

Microsoft Word - 第14回定例会_平田様_final .doc

Microsoft Word - 01.docx

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

(3) 可処分所得の計算 可処分所得とは 家計で自由に使える手取収入のことである 給与所得者 の可処分所得は 次の計算式から求められる 給与所得者の可処分所得は 年収 ( 勤務先の給料 賞与 ) から 社会保険料と所得税 住民税を差し引いた額である なお 生命保険や火災保険などの民間保険の保険料およ

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313791E63589F194E497A682C695AA8A84955C2E >

< C93878CBB926E8C9F93A289EF8E9197BF2E786264>

日心TWS

Twitter‡Ì”À‰µ…c…C†[…g‡ðŠŸŠp‡µ‡½…^…C…•…›…C…fi‘ã‡Ì…l…^…o…„‘îŁñ„�™m

各資産のリスク 相関の検証 分析に使用した期間 現行のポートフォリオ策定時 :1973 年 ~2003 年 (31 年間 ) 今回 :1973 年 ~2006 年 (34 年間 ) 使用データ 短期資産 : コールレート ( 有担保翌日 ) 年次リターン 国内債券 : NOMURA-BPI 総合指数

青焼 1章[15-52].indd

untitled

Microsoft Word - 2-1

ポイント 〇等価尺度法を用いた日本の子育て費用の計測〇 1993 年 年までの期間から 2003 年 年までの期間にかけて,2 歳以下の子育て費用が大幅に上昇していることを発見〇就学前の子供を持つ世帯に対する手当てを優先的に拡充するべきであるという政策的含意 研究背景 日本に

CycleavePCR® 呼吸器系感染症起因ウイルス検出キット Ver.2(製品コード CY216) 補足

早稲田大学大学院日本語教育研究科 修士論文概要書 論文題目 ネパール人日本語学習者による日本語のリズム生成 大熊伊宗 2018 年 3 月

研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

PRESS RELEASE (2014/2/6) 北海道大学総務企画部広報課 札幌市北区北 8 条西 5 丁目 TEL FAX URL:

数学の学び方のヒント

Microsoft Word - cjs63B9_ docx

2017_Eishin_Style_H01

81

Rの基本操作

0.0 Excelファイルの読み取り専用での立ち上げ手順 1) 開示 Excelファイルの知的所有権について開示する数値解析の説明用の Excel ファイルには 改変ができないようにパスワードが設定してあります しかし 読者の方には読み取り用のパスワードを開示しますので Excel ファイルを読み取

LEDの光度調整について

基礎統計

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Cycleave®PCR 呼吸器系感染症起因菌検出キットVer.2(製品コード CY214) 補足

Microsoft Word - tohokuuniv-press _01.docx

統計的データ解析

発電単価 [JPY/kWh] 差が大きい ピークシフトによる経済的価値が大きい Time 0 時 23 時 30 分 発電単価 [JPY/kWh] 差が小さい ピークシフトしても経済的価値

<4D F736F F D2089FC92E82D D4B CF591AA92E882C CA82C982C282A282C42E727466>

京都大学博士 ( 工学 ) 氏名宮口克一 論文題目 塩素固定化材を用いた断面修復材と犠牲陽極材を併用した断面修復工法の鉄筋防食性能に関する研究 ( 論文内容の要旨 ) 本論文は, 塩害を受けたコンクリート構造物の対策として一般的な対策のひとつである, 断面修復工法を検討の対象とし, その耐久性をより

JUSE-StatWorks/V5 活用ガイドブック

<4D F736F F D DC58F4994C5817A F C A838A815B83588CB48D FC189BB8AED93E089C8816A2E646F63>

博士論文 考え続ける義務感と反復思考の役割に注目した 診断横断的なメタ認知モデルの構築 ( 要約 ) 平成 30 年 3 月 広島大学大学院総合科学研究科 向井秀文

表紙.indd

ドリルダウン棒グラフを右クリックすると ドリルダウン が選択でき ドリルダウンすることで更に細かな視点で構成比を確認できます 例えば グラフの出力値を 品種 にしてドリルダウンで メーカー を設定すると 選択された品種の中でどのメーカーが売上に貢献しているかを確認することが可能です 該当商品の確認棒

PowerPoint プレゼンテーション

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

なぜバグ曲線は収束するのか

Microsoft PowerPoint SIGAL.ppt

Microsoft Word - K-ピタゴラス数.doc

共同研究目次.indd

- - i



untitled


29



喀痰吸引

平成18年度「商品先物取引に関する実態調査」報告書




第7章

New Color Chemosensors for Monosaccharides Based on Azo Dyes

ども これを用いて 患者さんが来たとき 例えば頭が痛いと言ったときに ではその頭痛の程度はどうかとか あるいは呼吸困難はどの程度かということから 5 段階で緊急度を判定するシステムになっています ポスター 3 ポスター -4 研究方法ですけれども 研究デザインは至ってシンプルです 導入した前後で比較

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

比較試験結果 - 全件チェックの精度と作業効率 KIBIT を活用して対象となる記録のチェックを実施した場合と 人のみでチェックを行い 規定の時間で作業が途中だったものについては同精度 同速度でチェックを継続 完了したと仮定し 全件終了時を推計した結果を比較したものが下記となります KIBIT を用

1.民営化

IPSJ SIG Technical Report Vol.2019-ITS-76 No /2/ ITS Intelligent Transportation System : IT

040402.ユニットテスト

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - 03Weka.ppt

Microsoft Word - mstattext02.docx

J3866_00_H1_4.indd

J3867_00_H1_4.indd

Transcription:

その人工知能は本当に信頼できるのか? 人工知能の性能を正確に評価する方法を開発 概要人工知能 (AI) によるビッグデータ解析は 医療現場や市場分析など社会のさまざまな分野での活用が進み 今後さらなる普及が予想されています また 創薬研究などで分子モデルの有効性を予測する場合にも AI は主要な検証手段として重視されています ところが 私たちは肝心の AI の性能を正しく評価できているのでしょうか? J.B.Brown 京都大学大学院医学研究科講師は ヒートマップ ( 可視化グラフ ) を用いた統計学的分析によって AI の性能評価指標そのものの有効性を網羅的に検証し 分野を問わず正確に AI の性能を評価できる手法を世界で初めて開発しました 信頼性の高い AI の開発に加えて ビッグデータを用いた創薬研究や治療法の創出などに貢献することが期待されます 本研究は 米国の科学誌 Molecular Informatics に 2018 年 2 月 14 日付で掲載されました Actual Positive/Active Actual Negative/Inactive Prediction Positive/Active TP FP (Type-I error) Prediction Negative/Inactive FN (Type-II error) TN AI の性能評価指標は ヒートマップと icdf( 逆累積分布関数 ) を使って検証することができる ACC が AI の性能 を過大に評価する危険性がある一方 MCC は性能を正確に評価できる厳密な評価指標であることなどが分かる 実 験で使う AI を評価する前に 本研究の手法によって指標そのものの特性を十分に吟味すべきである

1. 背景 AI によるビッグデータ解析は 市場分析や金融機関におけるローン滞納調査など社会のさまざまな分野での活用が広がっています 同様に創薬研究 医療現場のスクリーニング検査においても AI を使用したコンピューターモデルの二項分類による解析が主要な研究 / 検査手法となっています このように AI が社会に普及するにあたっては その性能を正しく評価することがきわめて重要です 二項分類モデルでは はい ( 陽性 真 ) と いいえ( 陰性 偽 ) でデータを分類し TP(True Positive: 正しく陽性と分類 ) FN(False Negative: 誤って陰性と分類 ) FP(False Positive: 誤って陽性と分類 ) TN(True Negative: 正しく陰性と分類 ) という4 種類の結果が得られます AI の性能は データをこの 4 種類に正しく分類できた割合によって さまざまな統計的指標を用いて評価されてきました しかし 例えば特定の分子を検出する場合に 実験における検出成功率が コンピューターモデルによる事前予測を大きく下回るという事例がしばしば報告されています その根本的な原因は コンピューターモデルすなわち AI の性能を過大に評価した統計的指標にあると考えられます これまでは AI の性能評価指標として TPR(True Positive Rate: 真陽性率 ) と ACC(Accuracy: 正確率 ) をはじめとする数種類の指標が用いられてきましたが これらの指標は本当に AI の性能を正しく評価できていたのでしょうか? 2. 研究手法 成果本研究は 上記の課題を解決するために AI の性能を統計的指標によって正確に評価する手法を開発しました この手法は以下のように TPR や ACC など各指標の特性と有効性を ヒートマップ ( 可視化グラフ ) と icdf(inverse Cumulative Distribution Function: 逆累積分布関数 ) を使った統計学的な解析によって検証するものです 本研究では 二項分類モデルを評価する指標として 上記の TPR と ACC に加えて BA(Balanced Accuracy: 平均正解率 ) PPV(Positive Predictive Rate: 陽性的中率 ) F1 値 (F1 Score:PPV と TPR の調和平均 ) TNR(True Negative Rate: 真陰性率 ) および MCC(Matthews Correlation Coefficient: マシューズ相関係数 ) を検証の対象としました 各指標が取りうる値は MCC は-1 から +1 まで その他は 0 から +1 までとなります まず AI に陽性と陰性のバランスが取れたデータ ( 陽性 50% 陰性 50%) と 陽性と陰性のバランスが極端に崩れたデータ ( 陽性 10% 陰性 90%) とを与えた場合に ACC と MCC が下した性能評価についてヒートマップを作成して比較しました ( 図 1: 赤みが強まるほど評価が高いことを示す ) その結果 MCC が AI の性能を厳密に評価するのに対して ACC は過大に評価する可能性が高く この性質はバランスの崩れたデータセットではより顕著に現れることが分かりました 具体的には MCC が陽性と陰性のどちらも正しく判定した場合でなければ 0.6 以上の高い評価を下さない一方で ACC は陽性をひとつも正しく分類できない AI に対しても高評価を与えてしまうのです 次に ACC と MCC について icdf を使って特定の評価を得られる確率を求めました ( 図 2) MCC ではバランスの取れたデータセットでも 0.6 以上の高評価を得られる確率は 10% 以下と低く 極端にバランスの崩れたデータセットではさらに確率は低下します 一方 ACC では 0.6 以上の高評価を得られる確率が高いことに加えて バランスの崩れたデータセットではむしろその確率が上昇してしまうことが分かりました こ 2

のように ACC は AI の性能を過剰に評価する危険性が高く AI を評価する場合には より厳密な指標である MCC を使う方が望ましいといえます 続けて その他の4つの指標についても 同様にヒートマップ ( 図 3 図 4) と icdf( 図 5) によって特性を評価しました バランスの取れたデータでは F1 値は陽性を正しく分類する AI の性能を過剰に評価する危険性が高く BA は ACC と同様の傾向を示しました 一方バランスの崩れたデータでは TNR は ACC との相関性が確認されるため ACC と同様に使用には注意が必要であることが分かりました F1 値と PPV については データのバランスが崩れた影響で高評価を与える範囲が縮小するため この場合には MCC のように厳密な指標として AI の性能評価に有効であることを示しています icdf によっても ヒートマップで示された各指標の同様な性質を確認することができました なお ヒートマップと icdf はどちらも どのようなバランスのデータに対しても適用できるため 検証に用いるデータセットのバランスに応じて評価指標の特性を把握することができます 本研究ではさらに ROC(Receiver Operating Characteristic: 受信者動作特性 ) 曲線と ROC 曲線下部の面積 AUC(Area Under Curve) を用いた AI の性能評価方法についても検証しました その結果 この AUC を用いた評価方法は MCC や F1 値といった評価指標との相関性が無く 事前に陽性と陰性が判明しているデータセットに合わせて設計された AI の評価には使えるものの 実証実験で陽性と陰性を分類する AI の性能評価には使えない という欠陥があることが明らかになりました 以上のことから AI の性能評価指標の中には ACC のように性能を過大に評価するものがあるため AI を使ってデータ分類を行う場合には 本研究で行ったように 実験を行う前にヒートマップと icdf によって評価指標そのものの特性を十分に吟味するべきであることが分かりました 今回の実験によって示したとおり 社会に浸透しつつある AI も その情報の正確性を評価した上で有効利用することが必要不可欠といえます 3. 波及効果 今後の予定本研究は AI の性能評価指標そのものの有効性を ヒートマップと icdf を使って統計学的に検証した世界で初めての成果で 創薬スクリーニングやケミカルバイオロジーに限らず どの分野の AI に対しても適用できる画期的なものです また 成果をただちに活用できるように 論文の追加データとしてヒートマップと icdf を作成するプログラムを公開しました どのようなデータセットに対しても 実証実験で正確な分類ができる 堅牢な AI の開発に貢献することが期待されます < 論文タイトルと著者 > タイトル :Classifiers and their Metrics Quantified 著者 :J.B.Brown 掲載誌 :Molecular Informatics DOI:10.1002/minf.201700127( オープンアクセス ) 3

図 1:MCC と ACC の AI 性能評価ヒートマップ 左側がバランスの取れたデータセット 右側がバランスの崩れたデータセットについて図示したもの 縦軸に TPR(True Positive Rate: 陽性を正しく分類した確率 ) 横軸に TNR(True Negative Rate: 陰性を正しく分類した確率 ) を取っている ACC は 0~1 MCC は-1~1 の範囲で結果が出る 値が高いほど高評価となる MCC が ACC に比べて高評価の出にくい厳しい評価指標であることが視覚的に確認できる 4

図 2.iCDF を使って 特定の評価を得られる確率を ACC と MCC について求めてグラフにしたもの MCC では 0.6 以上の高評価を得られる確率が低く 極端にバランスの崩れたデータセットではさらに確率が低くなる 一方 ACC では もともと高評価を得られる確率が高いことに加えて バランスの崩れたデータセットではむしろその確率が上昇してしまうことが分かる 5

図 3:6 つの評価指標について バランスの取れたデータ ( 陽性 50% 陰性 50%) で作成したヒートマップ 上段は 左から MCC F1 値 PPV 下段も同じく左から ACC BA TNR 図 4:6 つの評価指標について バランスの崩れたデータ ( 陽性 10% 陰性 90%) で作成したヒートマップ 並 び方は図 3 と同じ 6

図 5:6 つの評価指標について icdf によって解析したグラフ 左がバランスの取れたデータ ( 陽性 50% 陰性 50%) の場合 右がバランスの崩れたデータ ( 陽性 10% 陰性 90%) の場合 グラフの色はそれぞれ青 =MCC 水色 =PPV 赤 =F1 オレンジ =ACC 緑 =BA 紫 =TNR 左図では ACC と BA が重なっている 7