2013/08/24 日本行動療法学会第 39 回大会自主シンポジウム 失敗しない研究計画入門 : 観察研究 尺度研究 非薬物療法の介入研究の研究報告の質向上のためのガイドラインの理解 尺度研究の必須事項 土屋政雄 1
健康関連 QOL の概念モデル 個人の特性 症状の増幅 個人の動機 価値 選好 生物 生理的変数 症状の状態 機能の状態 全般的健康の認知 全体的生活の質 心理的支援 社会的経済的支援 社会的心理的支援 Wilson and Cleary(1995) JAMA; 273(1):59-65 環境の特性 非医学的要因 2
既存の尺度作成ガイドライン the Scientific Advisory Committee of the Medical Outcomes Trust (SAC-MOS) アメリカ心理学会 (APA) Terwee らの基準 APA のガイドラインは心理 教育分野,SAC-MOS と Terwee らの基準は多くの専門家によるコンセンサスなし COSMIN Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 3
[ スライド引用 + 追加 ] 奥村泰之 :COSMIN チェックリストの概要と共通項目の理解 (http://blue.zero.jp/yokumura/rhtml/session10.html) 英語表記 COSMIN (COnsensus-based Standards for the selection of health Measurement INstruments) 健康関連尺度の選択に関する合意に基づく指針 COSMIN (http://www.cosmin.nl/) 4
[ スライド引用 + 追加 ] 奥村泰之 :COSMIN チェックリストの概要と共通項目の理解 (http://blue.zero.jp/yokumura/rhtml/session10.html) 尺度特性の分類と関係性 信頼性 内的一貫性信頼性測定誤差 内容的妥当性 表面的妥当性 妥当性 構造的妥当性 de Vet et al (2011) Measurement in Medicine の表紙画像 反応性 反応性 基準関連妥当性 解釈可能性 Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 構成概念妥当性 異文化間妥当性 仮説検定 5
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 6
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 7
サンプルサイズ 何人からデータをとればよいですか? 尺度特性の種類に よって推奨人数が示されているよ 8
尺度特性の分類と関係性 信頼性 内的一貫性信頼性測定誤差 反応性 内容的妥当性 表面的妥当性 基準関連妥当性 妥当性 構成概念妥当性 異文化間妥当性 構造的妥当性 仮説検定 反応性 解釈可能性 Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 9
サンプルサイズ サンプルサイズとサンプルサイズ決定プロセスの情報を示す [1] データを集める前の作業 [1] Wilkinson & the Task Force on Statistical Inference APA Board of Scientific Affairs, (1999) Statistical Methods in Psychology Journals, American Psychologist.;54:594 604. 10
general サンプルサイズ 分析に用いられるサンプルサイズは適切か? Excellent 十分なサンプルサイズ ( 100) good 良好なサンプルサイズ (50-99) fair ほどほどのサンプルサイズ (30-49) poor 少ないサンプルサイズ (<30) A. 内的一貫性 項目 5: 単一次元性の分析に用いられるサンプルサイズは適切か? Excellent 7* 項目数かつ 100 good 5* 項目数かつ 100 または 6-7* 項目数だが <100 fair 5* 項目数だが <100 poor <5* 項目数 11
E. 構造的妥当性 項目 4: 分析に用いられるサンプルサイズは適切か? Excellent 7* 項目数かつ 100 good 5* 項目数かつ 100 または 5-7* 項目数だが <100 fair 5* 項目数だが <100 poor <5* 項目数 G. 異文化間妥当性 項目 3: 分析に用いられるサンプルサイズは適切か? Excellent 古典的テスト理論 (CTT): 7* 項目数かつ 100 項目反応理論 (IRT): グループごとに 200 good CTT: 5* 項目数かつ 100 または 5-7* 項目数だが <100 IRT: 1 グループが 200 でもう 1 グループが 100-199 fair CTT: 5* 項目数だが <100 IRT: グループごとに 100-199 poor CTT: <5* 項目数 IRT: 1 つまたは両方のグループが <100 12
記載例 1 ( 方法, 結果 ) サンプルサイズ 方法 : 臨床測定的特性の検証 研究のサンプルサイズは Terwee らの推奨により決定された [28] 構成概念妥当性, 再テスト信頼性, 天井 / 床効果は少なくとも 50 名が必要で, 内的一貫性の分析には約 100 名が必要であった 結果 全部で 90 名の患者が研究に参加した 61 名が再検査信頼性の研究に参加し,59 名が COMI 得点の両方の測定を完了した Storheim et al. (2012): Eur Spine J 21:2539-2549 13
記載例 2 ( 方法 ) サンプルサイズ 方法 サンプルサイズは上肢機能指標 (ULFI) の先行研究 [7,8,26] から決定された 並存的妥当性, 内的一貫性, 因子構造の検討に 80% の検定力で行うため,15% の脱落を見込んで最低でも 106 名の患者が必要であった (p<0.05) [46] 信頼性の検討には最低でも 29 名が必要であった Cuesta-Vargas & Gabel. Health Qual Life Outcomes. 2013;11:126. 14
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 15
信頼性 測定誤差 再検査信頼性って必要ですか? 必ずやりましょう きちんとした手続きで 16
尺度特性の分類と関係性 信頼性 内的一貫性信頼性測定誤差 反応性 内容的妥当性 表面的妥当性 基準関連妥当性 妥当性 構成概念妥当性 異文化間妥当性 構造的妥当性 仮説検定 反応性 解釈可能性 Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 17
Box B. および Box C. 信頼性 測定誤差 項目 4: 少なくとも 2 回の測定がなされたか? 項目 5: 測定の実施は独立か? 項目 6: 測定の間隔が述べられているか? 項目 7: 測定された構成概念について, 期間中に患者達は安定していたか? 項目 8: 測定の間隔は適切か? 項目 9: 測定条件は両方で同様か? 18
信頼性 測定誤差 短期の内に少なくとも 2 回は測定する 2 週間程度が多い 対象者の内, 一部のサンプルでよい アンカーを用いて変化のない集団を特定する global rating of change (GRC) global perceived effect (GPE) patient global impression of change transition ratings global scale COSMIN Manual; Kamper et al. J Man Manip Ther. 2009;17(3):163-70. 19
アンカー尺度の例 信頼性 測定誤差 あなたの打撲症に関して, 発生直後に比べた今の状態について評価してください -5-4 -3-2 -1 0 1 2 3 4 5 Very much Worse とても悪くなった Unchanged 変化なし Completely Recovered すっかり回復した Kamper et al. J Man Manip Ther. 2009;17(3):163-70. 20
アンカー尺度の例 信頼性 測定誤差 研究の開始時から, 私の全体的な状態は, 1 非常に改善した (Very Much Improved) 2 とても改善した (Much Improved) 3 わずかに回復した (Minimally Improved) 4 変化なし 5 わずかに悪化した (Minimally Worse) 6 とても悪化した (Much Worse) 7 非常に悪化した (Very Much Worse) Farrar et al. Pain 2001; 94: 149-158. 21
記載例 1 ( 方法 ) 信頼性 測定誤差 腰痛のコアアウトカム測定指数 (COMI) ノルウェー語版の妥当性と異文化間修正 対象 ノルウェイ, オスロの 3 つの理学療法クリニック ( プライマリケア ),1 つの外来リハビリクリニック,1 つのペインクリニック ( 大学病院 ),1 つの整形外科部署 ( 大学病院 ) で募集された腰痛の患者 測定ポイント 初回から次の受診時に回答 1 週間が目標 Storheim et al. (2012): Eur Spine J 21:2539-2549 22
記載例 1 ( 方法 ) 信頼性 測定誤差 測定指標 the Core Outcome Measures Index: COMI COMI は 7 つの質問から構成され,5 つの領域を対象としている COMI 指標得点 ( 範囲 0-10) は各領域からのコア項目を変換して平均したものにより計算される 全体的評定 (global question) 6 件法リッカート, 期間中の腰痛の状態の変化を測定 再現性 (Reproducibility) 主要な分析はテストと再テストに参加したすべての参加者を対象に行った 追加的な分析は, テストから再テストにかけて腰痛の状態が安定 ( 変化なし ) の患者に限定して行った Storheim et al. (2012): Eur Spine J 21:2539-2549 23
記載例 1 ( 結果 ) 信頼性 測定誤差 期間の長さ 初回から再検査までの期間の中央値は 7 日 ( 範囲 1-31 日 ) 再現性 測定誤差 信頼性 領域 / コア項目 (n) 範囲 初回の平均 (SD) 再検査の平均 (SD) SEM MDC MDC(%) ICC(95%CI) Kappa W (95%CI) Table 3 の画像 Storheim et al. (2012): Eur Spine J 21:2539-2549 24
記載例 1 ( 結果 ) 信頼性 測定誤差 感度分析 再検査時に全体的評定尺度で " 変化なし " と回答した 34 名の患者で感度分析を行ったところ, 同様の結果が得られた もう 1 つの感度分析では, 再検査までの期間が短い ( <5 日 ), また長い (>14 日 ) 者を除いて行ったが, 結果は変わらなかった Storheim et al. (2012): Eur Spine J 21:2539-2549 25
記載例 2 ( 方法 ) 信頼性 測定誤差 オランダ版下肢機能尺度は変形性股関節 / 膝関節症の者において高い信頼性 妥当性 反応性を持つ : 妥当性研究 対象 Sint Maartenskliniek 病院で整形外科医により変形性股関節 / 膝関節症の診断を受けた患者 測定ポイント 本研究の集団では 再検査信頼性の時間間隔として 3 週間が適切だと考えられた Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117 26
記載例 2 ( 方法 ) 測定指標 信頼性 測定誤差 変形性関節症の機能評定 LEFS 7 件法の全体的評定尺度 (global perceived effect: GPE) 完全に回復した (completely recovered) かなり改善した (much improved) わずかに改善した (slightly improved) 変化なし (not changed) わずかに悪化した (slightly worse) かなり悪化した (much worse) 非常に悪化した (vastly worsened) Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117 27
記載例 2 ( 結果 ) 信頼性 測定誤差 信頼性と minimal detectable change 5 名が改善 (5%)(GPE=1-2) 3 名が悪化 (3%)(GPE=6-7) ほとんどが安定 (92%)(GPE=3-5) 2 要因の変量効果 ANOVA によるオランダ版 LEFS の ICC は全体で 0.86 であった 膝グループ (n=81) と股関節グループ (n=25) の ICC はそれぞれ 0.87 0.78 であった 測定の標準誤差は 4.4 ポイントであった LEFS の MDC 90 と MDC 95 はそれぞれ 10 ポイントと 12 ポイントであった Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117 28
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 29
仮説検証 この研究の仮説は何ですか? よく指摘されるけど 実際どんな風に記述 したらよいのだろう 30
尺度特性の分類と関係性 信頼性 内的一貫性信頼性測定誤差 反応性 内容的妥当性 表面的妥当性 基準関連妥当性 妥当性 構成概念妥当性 異文化間妥当性 構造的妥当性 仮説検定 反応性 解釈可能性 Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 31
Box F. 仮説検証 項目 4: 相関や平均値差についての仮説が事前に生成されているか?( 例 : データ収集前から ) Excellent good fair poor 多数の仮説が事前に生成されている 最低限の数の仮説が事前に生成されている 仮説があいまいか, 生成されていないが何が予期されているか推測できる 何が予期されているか不明 項目 5: 予期される相関や平均値差の方向は仮説に含まれているか? 項目 6: 予期される相関や平均値差の強さは仮説に含まれているか? 32
COMI の領域 痛みの症状 仮説と結果をTableにまとめて表示 仮説 相関の値 仮説は検証 されたか? 痛み症状は BIPQ と EQ-5D の痛み / 不快項目が設問項目 5( 背部症状 ) と中程度から高い相関を持つと予想される RMDQ 指標は痛み関連の障害として異なる側面を測定しているので, 中程度の相関が予想される ( 中略 ) ( 中略 ) COMI 指数 記載例 ( 結果 ) BIPQ:0.51 EQ-5D pain: 0.46 RMDQ: 0.51 COMI 指数とEQ-5Dは共に様々な健康の EQ-5Dフル : 側面が混在している尺度のため, 高い相 -0.71 関が予想される RMDQとHSCLは, 痛み RMDQ: に関連した活動と心理的現象を測定する, 0.64 より きれい な尺度であり,COMI 指数と HSCL-25: の相関は中程度だと予想される 0.68 BIPQ: yes EQ-5D pain: yes RMDQ: yes EQ-5D:yes RMDQ: no HSCL-25: no 相関係数 0.3 未満 = 低,0.3-0.6= 中程度,0.6 以上 = 高 BIPQ : 短期疾病尺度 ; RMDQ: ローランド モリス障害尺度 ; EQ-5D: Euro-Qol-5 次元指標 ; HSCL-25: ホプキンス症状チェックリスト Storheim et al. (2012): Eur Spine J 21:2539-2549 33
相関係数と p 値 ( Nakagawa & Cuthill, 2007 ) p 値が示せないもの 効果の不確実性 効果の方向 効果の強さ p<0.0001 (n=20) p<0.0001 (n=200) p=0.05 (n=20) p=0.05 (n=200) p=0.06 (n=20) p=0.06 (n=200) p-p-! p-p-! p=0.5 (n=20) p=0.5 (n=200) -0.4-0.2 0 0.2 0.4 0.6 0.8 相関係数 Fig 2より 34
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 35
尺度の翻訳 先生, 尺度翻訳したいんですけど! 翻訳チームを作って系統的に進めよう 36
尺度特性の分類と関係性 信頼性 内的一貫性信頼性測定誤差 反応性 内容的妥当性 表面的妥当性 基準関連妥当性 妥当性 構成概念妥当性 異文化間妥当性 構造的妥当性 仮説検定 反応性 解釈可能性 Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 37
異文化間妥当性 ( 尺度の翻訳含む ) 単純な翻訳だけでは不十分 適正な手続きは, 複数回の順 逆方向の翻訳を少なくともそれぞれのステップにおいて 2 名の翻訳者が行うことである 元にしている測定指標の翻訳と適合のための既存のガイドライン International Quality of Life Assessment(IQOLA) [41]* the MAPI Research Institute [42] the European Organisation of Research and Treatment of Cancer(EORTC) [43] * 文献番号は COSMIN checklist manual のものによる 教科書では : Beaton et al. (2000). Spine (Phila Pa 1976) ;25(24):3186-91. 38
ステージ 1: 翻訳 ステージ 2: 統合 - 2 名の翻訳者 (T1 & T2) - 順方向翻訳 - 目的を知っている + 知らない - T1 & T2 を T12 に統合 - 報告に基づき不一致を解決 ステージ 3: 逆翻訳 ステージ 4: 専門家委員会のレビュー ステージ 5: 事前テスト Beaton et al., (2000) ;Spine 25, 2186-91 - 2 名の英語を母国語とする者 - 測定指標について知らない - 2つの逆翻訳を作成 (BT1 & BT2) それぞれのバージョンの報告 ( T1 & T2 ) 報告書 - 全ての報告書をレビュー - 方法論者, 開発者, 言語の専門家, 翻訳者達 - 不一致について合意形成 - プレ最終バージョン作成 - n=30-40 - 質問票完成 - 項目の理解について確認 それぞれのバージョンの報告 ( BT1 & BT2 ) 報告 報告 開発者 / 委員会によりすべての報告の提案と評価 ステージ 6 : 39
Box G. 尺度の翻訳 項目 5: 翻訳過程に参加した者の専門性が十分に記述されているか? 項目 6: 翻訳者達はお互いに独立して作業したか? 項目 7: 項目は順 逆方向に翻訳されたか? 項目 8: 原版と翻訳版の違いがどのように解消されたかについて十分な記述があるか? 項目 9: 翻訳は委員会により精査されたか?( 例 : 原版の作成者 )? 項目 10: 解釈, 翻訳についての文化的関連, 読解力の容易さの確認のため, 健康関連患者報告式アウトカム (HR-PRO) の事前テスト ( 例 : 認知的インタビュー ) は行われたか? 項目 11: 事前テストに用いられた対象者について十分な記述があるか? 項目 12: 対象者における言語と文化的背景以外の全ての特徴は同様か? 40
記載例 1 ( 方法 ) 翻訳過程 方法 COMI の原版は, 母国語がノルウェー語である独立した 2 名の異なるプロフィールの訳者 ( 臨床家と文献学者 ) によりノルウェー語に順方向の翻訳がなされた ノルウェー語翻訳版は, 元の英語版を知らない,2 名のネイティブの英語話者が英語への逆方向翻訳を行う前に, 合意を図った 翻訳者間の正式会議において, 翻訳者達,1 名の健康の専門家, 研究チームの研究者達が, 全ての翻訳をレビューし, 不一致の点につき最終的な合意が得られるまで議論が行われた 最終的なノルウェー語版は, 最初に研究に参加した患者達によりレビューされた ここで, 読み, 解釈, 質問票への記入に問題がなかったため, 修正は行われなかった Storheim et al. (2012): Eur Spine J 21:2539-2549 41
記載例 2 ( 方法 ) 翻訳過程 修正頸部疼痛尺度 (NDI) のトルコ版翻訳と臨床測定学的特性 研究の順序 本研究の実施は, 同時期に Aslan らがトルコ語版の尺度を作成している情報を知らずに行われた トルコ語版作成 NDI の翻訳は back-forward 法 [30] が用いられ,COSMIN の推奨 [31] に従った Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25. 42
記載例 2 ( 方法 ) 翻訳過程 トルコ語版作成 ( 続き ) まず項目はお互いに知らない 2 名のネイティブなトルコ語話者によりトルコ語に翻訳された 翻訳は研究チームにより検討された ( 主な関心分野が, 腰痛と頚痛である 3 名の教授 ) 次に, 尺度は 1 名のネイティブな英語話者により再度トルコ語に翻訳された トルコ語版尺度と英語の原版の文章の同等性について, 研究チームにより検討された 実践上の問題は,10 名の小集団サンプルにより検討された この集団で得られた結果により, 修正が行われた 次スライドの結果参照 Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25. 43
記載例 2 ( 結果 ) 翻訳過程 結果 翻訳におけるパイロット調査で, 最初の項目の 痛みの強度 は, あなたの頸部の痛み に修正された 3 つ目の項目の 持ち上げる は, 頸部の痛みがない時に, 持ち上げる際に重さを等しくする という文が, 重い物を持ち上げる事について明確に目的を伝えるために追加された 項目 7 で, 仕事 について, もし働いていなかったらオプション G にチェックを入れてください が追加された パイロット調査で参加者から最もよく質問されたのは, 項目 10 に関してであった レクリエーション は 余暇時間の活動 として理解できるので, こちらに修正した パイロット調査の 9 名は運転をしない者であったので, 項目 8 の回答に問題があった 働いてない者や余暇活動を行わない者がいたので, セクション 7,8,10 に 行ったことがない が追加された Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25. 44
記載例 3 ( 方法 ) 翻訳過程 パイロット調査の詳しい記述 最終的なオランダ語版について, 平均年齢が 65 歳 ( 範囲は 24 歳から 86 歳 ) の 24 名の股関節変形性関節症または人工股関節の患者 ( 男性 10 名, 女性 14 名 ) に対して理解可能性の検討面接を健康の専門家が行った オックスフォード股関節尺度に回答した後, 患者は系統的に質問を受け, 質問に関して考えたこと, 各質問項目の言葉づかい, 質問項目の理解のしやすさ, 読みやすさ, 質問票への回答経験を述べた Paulsen et al., Bone Joint Res. 2012 ;1(9):225-33. 45
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 46
臨床に役立つ尺度特性 介入の結果 尺度の得点が 5 点も 変化しました! その変化得点って 妥当なの? どのレベルの改善度なの? 47
尺度特性の分類と関係性 信頼性 内的一貫性信頼性測定誤差 反応性 内容的妥当性 表面的妥当性 基準関連妥当性 妥当性 構成概念妥当性 異文化間妥当性 構造的妥当性 仮説検定 反応性 解釈可能性 Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45. 48
定義 反応性 測定される構成概念における, 時間経過による変化を検出することについての患者報告式アウトカムの能力 変化得点の妥当性 必要な情報 変化の有無について確かめるために, 信頼性 測定誤差の部分で紹介した, アンカーが用いられることが多い COSMIN checklist manual 49
反応性 Box I. 項目 4: 少なくとも 2 回の測定による縦断デザインが用いられているか? 項目 5: 期間が述べられているか? 項目 6: 期間中に生じたことについて十分述べられているか? ( 例 : 介入, 他の関連イベント ) 項目 7: 変化のあった患者の割合は示されたか ( 例 : 改善または悪化 )? 確定基準 (gold standard) がない場合 項目 8: 得点の変化についての仮説が事前に生成されているか ( 例 : データをとる前 ) 項目 11: 比較する尺度の十分な説明はあるか? 確定基準がある場合 項目 15: 変化の基準は確定基準として適切だとみなされるか? 50
縦断デザインの必要な箇所まとめ ベースライン 信頼性 測定誤差 反応性 解釈可能性 2 週間程度変化なし 介入 治療 イベント 数か月 ~ 年一定数の変化あり 51
記載例 1 ( 方法 ) 反応性 慢性腰痛と変性椎間板疾患の患者における SF6D, EQ5D および oswestry disability index の比較 対象 多施設無作為割付比較試験での 172 名の腰痛患者 測定ポイント ベースライン,2 年後 指標 SF6D:0.29 から 1.00 の範囲で,1.00 が完全な健康 EQ5D:-0.59 から 1 の範囲で,1 が完全な健康 ODI:10 項目,0 から 100 で,100 が完全に障害 7 件法の全体評定 ( 受けている治療からどれ位の便益を得 られると思いますか ) Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148. 52
記載例 1 ( 方法 ) 反応性 反応性 ODI と 2 年後の 7 段階評定尺度を確定基準として反応性が評定された まず,SF6D,EQ5D,ODI のベースラインから 2 年後フォローアップ時点での変化得点についてスピアマンの順位相関を算出 次に,SF6D,EQ5D,ODI と, 全体評定の 2 区分 ( 1-3: 改善,4-7: 非改善 ) で ROC の曲線化面積 ( AUC) を算出 Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148. 53
記載例 1 ( 結果 ) 尺度の変化得点と全体評定カテゴリーのスピアマンの順位相関は 0.84,0.55,0.76( それぞれ ODI,EQ5D,SF6D) であった ROC 曲線下面積, つまり患者を 改善 か 非改善 正しく弁別する可能性とその95% 信頼区間はそれぞれODIで 94%(87.5-97.6), SF6Dで90%(82.1-94.6),EQ5Dで83%( 75-90) であった 反応性 感度 Fig4 の ROC 曲線の画像 100- 特異度 54 Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
記載例 2 ( 方法 ) 反応性 再掲 オランダ版下肢機能尺度は変形性股関節 / 膝関節症の者において高い信頼性 妥当性 反応性を持つ : 妥当性研究 違い 対象 Sint Maartenskliniek 病院で整形外科医により変形性股関節 / 膝関節症の診断を受けた患者 測定ポイント 反応性については改善をとらえ レスポンスシフトのリスクを最小化するのに 3 か月が適切だとみなした Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117 55
記載例 2 ( 結果 ) 反応性 反応性 7 名が改善 (7%)(GPE=1-2) 9 名が悪化 (9%)(GPE=6-7) ほとんどが安定 (85%) (GPE=3-5) ROC 曲線解析による改善患者の LEFS の AUC は 0.76(95%CI:0.49-1.00) ( 略 ) であった 悪化患者の ( 以下略 ) Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117 56
解釈可能性 定義 質的な意味, つまり, 臨床的または一般的に理解される言外の意味を尺度の量的得点や変化得点に付与できる程度 要はカットオフ決め MIC(minimal important change) と SDC(smallest detectable change) の 2 種類あるが, ここでは MIC を指す SDC 測定誤差 反応性のためのデザインを組んでおけ ば OK COSMIN checklist manual 57
解釈可能性 統計的に有意でなく, 重要でもない変化 統計的に有意だが, 重要でない変化 統計的に有意かつ, 重要な変化 変化なし MIC 最大の変化 SDC 統計的に有意でなく, 重要でもない変化 重要だが測定誤差と区別できない変化 統計的に有意かつ, 重要な変化 変化なし MIC SDC 最大の変化 MIC: minimal important change; SDC: smallest detectable change de Vet & Terwee. J Clin Epidemiol. 2010 Jul;63(7):804-5. 58
再掲 記載例 ( 方法 ) 解釈可能性 慢性腰痛と変性椎間板疾患の患者における SF6D, EQ5D および oswestry disability index の比較 対象 多施設無作為割付比較試験での 172 名の腰痛患者 測定ポイント ベースライン,2 年後 指標 SF6D:0.29 から 1.00 の範囲で,1.00 が完全な健康 EQ5D:-0.59 から 1 の範囲で,1 が完全な健康 ODI:10 項目,0 から 100 で,100 が完全に障害 7 件法の全体評定 ( 受けている治療からどれ位の便益を得 られると思いますか ) Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148. 59
記載例 ( 結果 ) 解釈可能性 ROC 曲線にプロットされた変化得点の最適なカットオフ点として定義される MIC の値は, それぞれ ODI で 12.88( 感度 88%, 特異度 85%), EQ5D で 0.173( 感度 73%, 特異度 79%), SF6D で 0.031( 感度 93%, 特異度 78%) であった 感度 Fig4 の ROC 曲線の画像 100- 特異度 Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148. 60
臨床的有意性について 個人レベルの変化の程度を表現できる Journal の投稿規程にも明記 行動療法の伝統 [1] 代表的な指標の算出には, 尺度特性の情報が必須! [1] Jacobson & Truax. J Consult Clin Psychol. 1991 ;59(1):12-9 61
臨床的有意性の重要性 Journal of Consulting and Clinical Psychology (JCCP) JCCP の表紙画像 Instructions to Authors 臨床的有意性の統計的報告 (Statistical Reporting of Clinical Significance) 介入研究の報告には, 臨床的に有意な変化の指標を示すべき 様々な指標が考えられるが,reliable change index(jacobson et al., 1999) や, 非機能的であった個人が機能的な分布へ移行した程度 (Jacobson & Truax, 1991 ) や, 他の規範的な比較 (Kendall et al., 1999) などを推奨する http://www.apa.org/pubs/journals/ccp/index.aspx 62
事例研究でも役にたちます : 社交不安障害がある Henry の事例 ネガティブ評価への恐怖 60 50 40 30 20 10 0 セッション 1 セッション 2 セッション 3 エクスポージャー セッション 4 セッション 5 セッション 6 セッション 7 セッション 8 セッション 9 セッション 10 セッション 11 セッション 12 セッション 13 セッション 14 セッション 15 2 か月フォローアップ 8 か月フォローアップ 患者の得点 RCI=11.72 Henry's c score=20.4 Jacobson の指標 社交不安障害患者の平均値一般対照群の平均値 Shorey & Stuart. 2012 Clin Case Stud. 11(1):35-47. 63
reliable change index (RC; Jacobson & Truax, 1991) 変化 x x RC 2 1 S diff RC>1.96 の変化が必要 1.96* x x S diff 2 1 S diff 2( S E 2 ) S s 1 r E 1 xx x 1 : pre 得点, x 2 : post 得点, S diff : pre-post の変化の標準誤差, S E : 測定の標準誤差, s 1 : pre の標準偏差, r xx : 信頼性 算出には尺度特性の情報が必須! 64
セッティングの詳細な情報も重要 Box J. 解釈可能性 項目 7: 関連する ( 下位 ) 集団の得点や変化得点 ( 例 : 平均値 標準偏差 ) は示されたか?( 例 : 基準となる集団 患者での複数の下位集団 一般集団 ) Box. 一般化可能性 項目 4: 研究が行われたセッティングは?( 例 : 一般集団 プライマリケア 病院 / リハビリ施設 ) 項目 7: 患者を選択した方法が適切に述べられたか?( 例 : 簡便 連続 無作為抽出 ) 尺度の得点の意味を適切に解釈するために 対象集団の決定 収集段階から可能な限り情報収集 65
Take home message データを取る前に必要な人数を決める 変化のない集団について再評価を行う 仮説を具体的に記述する 尺度翻訳は個人でなくチームで進める 臨床に役立つ尺度特性を示す 連絡先 : 土屋政雄 E-mail: tsuchiya( アットマーク )h.jniosh.go.jp 個人 Web: http://researchmap.jp/mtsuchi/ 66
主要引用文献 Beaton et al. (2000) Guidelines for the process of cross-cultural adaptation of self-report measures. Spine (Phila Pa 1976) ;25(24):3186-91. Bullinger et al. Translating health status questionnaires and evaluating their quality: The IQOLA project approach. Journal of Clinical Epidemiology 1998;51:913 23. Cuesta-Vargas & Gabel. Cross-cultural adaptation, reliability and validity of the Spanish version of the upper limb functional index. Health Qual Life Outcomes. 2013 ;11:126. de Vet & Terwee. The minimal detectable change should not replace the minimal important difference. J Clin Epidemiol. 2010;63:804-5 Farrar et al. Clinical importance of changes in chronic pain intensity measured on an 11-point numerical pain rating scale. Pain 2001; 94(2): 149-158. Hoogeboom et al. The Dutch Lower Extremity Functional Scale was highly reliable, valid and responsive in individuals with hip/knee osteoarthritis: a validation study. BMC Musculoskelet Disord. 2012;13:117. Jacobson & Truax. Clinical significance: a statistical approach to defining meaningful change in psychotherapy research. J Consult Clin Psychol. 1991 ;59(1):12-9 Kamper et al. Global rating of change scales: a review of strengths and weaknesses and considerations for design. J Man Manip Ther. 2009;17(3):163-70. Kesiktas et al. Clinimetric properties of the Turkish translation of a modified neck disability index. BMC Musculoskelet Disord. 2012;13:25. Storheim et al., Cross-cultural adaptation and validation of the Norwegian version of the Core Outcome Measures Index for low back pain. Eur Spine J. 2012 Dec;21(12):2539-49. 67
主要引用文献 Johnsen et al., Comparison of the SF6D, the EQ5D, and the oswestry disability index in patients with chronic low back pain and degenerative disc disease. BMC Musculoskelet Disord. 2013 ;14:148. Nakagawa S, Cuthill IC. Effect size, confidence interval and statistical significance: a practical guide for biologists. Biol Rev Camb Philos Soc. 2007;82(4):591-605. Park et al. (2013) Mindfulness: a systematic review of instruments to measure an emergent patient-reported outcome (PRO). Qual Life Res. (epub) Paulsen et al., Translation, cross-cultural adaptation and validation of the Danish version of the Oxford hip score: Assessed against generic and disease-specific questionnaires. Bone Joint Res. 2012;1:225-33. Shorey & Stuart. Manualized Cognitive-Behavioral Treatment of Social Anxiety Disorder: A Case Study. Clin Case Stud. 2012;11(1):35-47. Wilson IB, Cleary PD. Linking clinical variables with health-related quality of life. A conceptual model of patient outcomes. JAMA. 1995 Jan 4;273(1):59-65. 68