与信モデル構築 ( 入門編 ) - Credit Model of Development for Data Mining - 小野潔松澤一徳 ( 発表者 ) 平成 26 年 7 月 24 日 株式会社インテック金融ソリューションサービス事業本部
銀行が与信モデルの再構築に着目する背景 金融機関を取り巻く環境の変化 貸金業法の総量規制施行 住宅ローンの競争激化 地銀の再編成 個人信用情報センター(JICC)への 銀行の加盟が許可(2012 ) 金融庁/日銀の監査強化(2011 ) 東京 隣接県への出店 消費者金融社会型の無担保ローン 生涯収益を考慮した住宅ローン融資の検討 過去取引の無い顧客への融資 与信モデルの再構築 2
与信モデルのフローと本発表の論点 融資の申込の受付 与信サーバー 融資の申込の受付 No データの基本統計量 否認基準に抵触しない No Yes 個人信用情報の基準を満たす 外信 Yes ターゲット変数の設定 Black/Whiteの定義 分析対象データの決定 大まかなモデル変数選択 自動審査 総合判定 自動審査システムによる顧客データ 取引データ 企業データ収集 欠損値 異常値の削除/修正 自動審査モデル(SS) モデルのデータ受取 組み合わせ変数の決定 倒産率の算出/倒産率補正 モデル変数の決定 格付算出 判定マトリックス 領域の判定 No ⑤自動審査システムから SSモデルの呼び出し 決定木分析 ロジスティック回帰分析 ハイブリッドモデル アンサンブルモデル適用 融資判定 Yes 与信限度額の算出 与信内容を出力 モデル格付の決定 判定マトリックスの決定 ①モデル変数の決定 外部信用情報の利用 ②モデルによる分析 a) 決定木分析 変数選択 樹形図作成 審査担当者との検証作業 b) ロジスティック回帰 変数選択 精度計算 ③ハイブリッドモデル orアンサンブルモデルの適用 分析手法の組み合わせ 複数種類のモデル構築 検証データへのモデル適用 モデル選定 終了 過去シミュレーションの確認 ④判定マトリクスの決定 領域の設定 3
1 外部信用情報の利用 2 銀行向けローン審査モデルの決定木分析について 3 ハイブリッドモデルとアンサンブルモデルの適用 4 判定マトリクスの考え方 5 外部システムからの SS モデルの呼び出し 4
日本の個人信用情報 貸金業法の総量規制規制 年収の1/3 JICCに加盟した銀行 82行 65 名称 金融の業種 DB 更新 JICC 消費者金融会社 商工ローン 日次 クレジット/信販会社 日次 月次 銀行系 月次 JICC, CIC, KSC提携 - 本人特定情報,延滞,事故 異動情報 - JICC, CIC提携 - 本人特定情報,残高情報(総量規制) - (日本信用情報機構) CIC ((株)シー アイ シー) KSC (全国銀行個人信用情報センター) CIN (Credit Information Network) FINE (Financial Information Network) 取扱情報 指定信用 情報機関 2012年指定 本人特定情報,契約内容,返済状況 取引情報,事故情報,異動情報 (借入総件数,総残高含む) 2012年指定 銀行系のため貸金業法の 総量規制外 5
銀行系の無担保ローンのマーケティング範囲 JICC 統計資料 (2014 年 1 月末 ) 加盟総会員数 1,432 内加入貸金業者数 1,067 (75%) 内銀行 82 (6%) 内信用金庫 110 (8%) 総登録情報 登録件数 3,634 万件 残高合計 164,911 億円 残高有り情報 登録人数 1,196 万人 登録件数 1,893 万件 登録残高合計額 74,213 億円 1 人当たり残高有り件数 1.6 件 1 契約当たりの残高 39.2 万円 異動情報 ( 入金予定日から3カ月以上入金なし ) 登録人数 390 万人 登録件数 691 万件 ( 全銀行 126 行の 65%) 登録人数登録件数残高合計 1 人当たりの残高 1 契約当たり残高 ( 万人 ) ( 万件 ) ( 億円 ) ( 万円 ) ( 万円 ) 1 件借入 758 758 32,539 42.9 42.9 2 件借入 269 538 20,725 77.0 38.5 3 件借入 109 328 11,587 106.0 35.3 4 件借入 41 162 5,576 137.5 34.4 5 件借入 19 107 3,785 195.1 35.4 合計 1,196 1,893 74,213 62.0 39.2 銀行のマーケット範囲 :2 件 100 万円以下 6
一般的な個人信用情報JICCの効果 外部信用情報を使用した自動審査モデルの精度 外部信用情報を未使用の自動審査モデルの精度 Hit ate 感 度 特異度 False larm ate 7
1 外部信用情報の利用 2 銀行向けローン審査モデルの決定木分析について 3 ハイブリッドモデルとアンサンブルモデルの適用 4 判定マトリクスの考え方 5 外部システムからの SS モデルの呼び出し 8
個人信用情報を利用した決定木のツリー図 個人信用情報利用無しモデル 個人信用情報利用モデル 借入比率 返済比率 年収等を上位の判定で利用 専業の無担保ローンの借入総件数や借入総金額が上位 無担保ローン 借入総件数 借入比率 返済比率 取引年数 自振 公共料金 転職回数 年収 照会件数 年収 借入比率 返済比率 自振 電気 年収 取引年数 自振 公共料金 転職回数 無担保ローン 借入総金額 無担保ローン 借入総金額 借入比率 照会件数 自振 電気 年収 赤文字 外部個信情報 9
参考 : 決定木分析の分割基準 SS/EM ではノード毎に下記の分割基準を変更可能 ただアルゴリズムは SS 特有のため オリジナルの決定木と相違することに留意 決定木の種類分割基準値定義式 C5.0, C4.5 情報エントロピー値 CT GINI 値 CHID カイ 2 乗値 10
1 外部信用情報の利用 2 銀行向けローン審査モデルの決定木分析について 3 ハイブリッドモデルとアンサンブルモデルの適用 4 判定マトリクスの考え方 5 外部システムからの SS モデルの呼び出し 11
ハイブリッドモデルについて ハイブリッドモデル 直列型2分析モデル 案件データ モデル モデルB 決定木分析 ロジスティック回帰分析 決定木分析 ニューラル 判定結果 ロジスティック回帰分析 MB ハイブリッドモデルは分析手法を2段階に直列に組み合わせた手法 第1段階の分析結果のスコア値を分析データに追加することがミソ その後に第2段階の分析手法を適用 一般に 第1段階のスコア値が最も寄与度が高く 第2段階の分析で微調整を行う 分析手法の組合せとして金融業界では 第1段階では決定木 第2段階でロジスティック回帰を行う事が多い 決定木のツリーは審査担当者にわかりやすく ロジスティック回帰は種々の指標が算出されしかも一つの式で表現できる点が評価されている 12
参考 ハイブリッドモデルの計算方法について x 決定木モデル 出力結果のスコア値 ロジスティック回帰モデル Ln(p/(1-p)) a1x1 a2x2 anxn an+1xn+1 c 変数として利用 決定木分析で複数の同スコア デフォルト率 のセグメントに分解される このスコア値を元データに追加し ロジスティク回帰分析を行う 13
アンサンブルモデルについて アンサンブルモデル 並列型多数決モデル 案件データ 平均値 中央値等 判定結果 モデル F 言うなれば ベテランでない得意分野が違う若手の審査官10人が多数決で判定決定するような方法 アンサンブルモデルの妥当性は証明されていますが 結構理解が難しい内容です ーー 並列したN個の複数モデルにより構成される Nは5 100 誤差から設定 多数決による決定方法は 複数モデルの算出値の平均 中央値 多数等を代表値として確定 採用分析手法として 弱い分類器 精度が高いモデルを使うと 同じような値を比較することになる為 長所は モデルの安定性 と 多数決法という考え方 のわかりやすさ 14
参考 : アンサンブルモデルの計算方法について データモデル 1 モデル 2 モデル 3 モデル 3 モデル N 単純平均最大値最小値 最大値, 最小値を除いた平均 案件 90% 80% 90% 70% 60% 78% 90% 60% 80% 案件 B 50% 40% 30% 40% 20% 36% 50% 20% 37% 案件 C 10% 15% 5% 30% 20% 16% 30% 5% 15% 案件 D 30% 35% 50% 30% 20% 33% 50% 20% 32% 案件 E 60% 5% 30% 40% 80% 43% 80% 5% 43% 案件 F 70% 30% 15% 20% 30% 33% 70% 15% 27% モデルとしては 5~8 層の決定木を利用する場合が多い ( 弱い分類器 ) アンサンブルモデルの計算例例ではモデル 1~N の最大値と最小値を除いた平均値を利用した ( モデル数 N の値は別の統計値から設定する ) 計算方法としては 多数決 線形結合 最小値 最大値 平均等を利用する 同じ分類器から Begging, Boosting といった手法で分類器を生成する方法も可能 15
参考 :SS/EnterpriseMiner でのアンサンブルモデル モデル 4 個の平均値とするアンサンブルモデル 同じ手法で平均値を利用したバギングモデル 16
1 外部信用情報の利用 2 銀行向けローン審査モデルの決定木分析について 3 ハイブリッドモデルとアンサンブルモデルの適用 4 判定マトリクスの考え方 5 外部システムからの SS モデルの呼び出し 17
判定マトリックス 与信モデル特有の考え方 モデル審査の限界 全案件を自信をもって判定できるモデルはない どうしてもグレーゾーンが発生 専門家による審査 モデル採用変数はせいぜい10 20個 人の目の審査が必要な範囲 グレーゾーン が発生 専門家の審査が必要 参考 領域について 領域の設定は 判定マトリックスを用いる 領域の判定は 信用リスク モデル格付 回収額 融資額 収益 生涯収益 が一般的 モデルのターゲットや変数でない値を利用 モデル格付 自動審査モデル判定結果 収 益 回 収 可 能 性 等 1 2 3 4 5 6 7 8 9 10 B C ccept 自動審査モデルにより自動的に判定を承認する領域 所謂ホワイト領域 D V eview 審査担当者により審査の承認/謝絶を判定する領域 所謂グレー領域 E R eject 自動審査モデルにより自動的に判定を謝絶する領域 所謂ブラック領域 領域 審査担当者を要する領域 を小さく設定することで 真の自動審査の実現につながる 18
( 参考 ) 住宅ローンの生涯収益に必要なリスクモデル 住宅ローン収益の変動リスク 市場リスク 信用リスク 経費 市場金利変動リスクプリベイメントリスクデフォルトリスク回収率変動リスク団体信用生命保険料審査費用サービシング コスト ( 管理回収経費 ) 金利リスク管理 生涯収益シミュレーション 住宅ローンは商品の特性上 その収益性を判断するには単年度の収益分析では不十分であり 住宅ローンが完済する迄のトータルリターンの計測が必要 しかし その計測には各案件のデフォルト率やプリベイメントリスク 経費等のコスト等のシーズン効果を含めたモデルが必要 2014 年現在では 様々なリスクを統合する方法論は未完成な状態であり 分析に必要な長期間のデータも見つからない状態 実務では左記計算が困難であることから 単純収益 ( 利息 ) や個信データで代用 19
1 外部信用情報の利用 2 銀行向けローン審査モデルの決定木分析について 3 ハイブリッドモデルとアンサンブルモデルの適用 4 判定マトリクスの考え方 5 外部システムからの SS モデルの呼び出し 20
外部環境からの与信モデル実行と変数引渡し 外部環境からの与信モデル実行例 - 外部環境からの SS の起動は Windows コマンド等からの呼び出しが一般的 - 自動審査システムそのものは他の高級なプログラミング言語 (Java 等 ) で開発されるケース多いため 出力コマンドを記載した bat ファイル等を自動審査システムのプログラム言語から呼び出すことが多い Java パラメータ等 引数の意味 c:.. sas 9.1 sas.exe SS システム実行 *.bat -sysin c:.. mypgm.sas -sysparm Tokyo -sysin 以下に実行する sas プログラムの場所を記載 (SS システムへ引数を渡す場合 ) -sysparm Tokyo " と書くことでマクロ変数 &sysparm に文字データ "Tokyo" を代入 Java -config c:.. sasv9.cfg -config 以下に sas の config ファイルを記載 21
最後に 22
最後に 与信モデル構築は決して精度だけでモデル選択を行わず 経済状況 監査官庁の動きを先回りし 所属業界に合わせることが肝要 今後の銀行のローンモデルをめぐる動き - 無担保ローンモデル 消費者金融会社型モデルへ急速な舵取りが必要 但し 消費者金融と銀行では回収率が相違するため あくまでも市場のターゲットは 借入件数2件 限度額100万円 であり工夫を要する - 有担保ローンモデル 住宅ローンモデル 住宅ローンの収益は2011年より金融庁 日銀の監査対象となっており 地銀 信金は収益に関するDB構築を早期に着手が必要な状態 現実には未整備 今後は収益を判定マトリクスに含める方向に舵取りが必要 次回テーマ 与信モデル構築 中級編 自動審査システムの新たな潮流 - 可変型与信モデルを取入れた自動審査システム 少量データ対応の新しいモデル構築法 チャネルを配慮した与信モデル構築法 承認率UPのためのユーザー コントローラー機能 経済悪化に伴う新規案件のSelection機能 23
ご清聴ありがとうございました Go Beyond 24