I-1 模 倣 学 習 による 依 存 構 造 解 析 坪 井 祐 太 ( 日 本 アイ ビー エム 株 式 会 社 ) 依 存 構 造 解 析 ( 係 り 受 け 解 析 )とは? 文 中 の 単 語 間 の 修 飾 関 係 を 表 す 木 構 造 を 予 測 評 判 分 析 関 係 抽 出 機 械 翻 訳 などの 基 盤 技 術 提 案 手 法 の 効 果 少 しの 精 度 低 下 で 数 十 倍 の 高 速 化 を 実 現 英 語 ベンチマーク データでの 評 価 (Penn Treebank) We SUBJ propose BJ 既 存 手 法 (Zhang&Nivre2011) 応 用 :マイクロブログ 等 の 大 規 模 テキストデータの 処 理 a new method 提 案 手 法 解 析 速 度 27 文 / 秒 830 文 / 秒 精 度 (UAS) 929% 907%
I-1 模 倣 学 習 による 依 存 構 造 解 析 坪 井 祐 太 ( 日 本 アイ ビー エム 株 式 会 社 ) Transition-based Dependency Parsing ( 既 存 手 法 ) 文 の 前 から 順 に 係 り 受 け 関 係 を 決 定 (マルコフ 決 定 過 程 ) 正 解 データを 用 いて 方 策 を 教 師 付 き 学 習 解 析 時 の 誤 差 伝 播 が 課 題 予 測 履 歴 も 特 徴 に 用 いるため 前 の 誤 りが 伝 播 する (Non-iid) 既 存 手 法 では 大 域 最 適 化 &ビーム 探 索 によって 回 避 探 索 幅 に 比 例 して 解 析 速 度 低 下 正 解 データ 下 の 状 態 分 布 と 学 習 した 方 策 が 観 測 する 状 態 分 布 が 異 なる 模 倣 学 習 (Imitation-learning)による 誤 差 伝 播 回 避 強 化 学 習 問 題 としての 依 存 構 造 解 析 器 学 習 : 膨 大 な 状 態 空 間 数 ( 状 態 を 表 す 特 徴 次 元 約 500 万 ) エピソード 単 位 の 決 定 過 程 報 酬 を 最 大 化 する 方 策 (オラクル)が 利 用 可 能 模 倣 学 習 (DAGGER, Ross et al 2011)の 適 用 方 策 空 間 の 中 で 報 酬 の 大 きい 領 域 のみを 探 索 学 習 の 効 率 化 解 析 速 度 を 落 とすことなく 精 度 が 向 上 (897%907%)
I- 2 階 層 ベイズモデルによる 消 費 者 異 質 性 を 考 慮 したクロスメディア 効 果 推 定 日 高 徹 司 ( 博 報 堂 ) 佐 藤 忠 彦 ( 筑 波 大 学 ) 目 的 1 大 規 模 データでさえ 捉 えることが 困 難 な,インターネット テレビ ラジオ 新 聞 雑 誌 屋 外 広 告 などの 複 数 のメディアの 相 乗 効 果 (クロスメディア) 効 果 を 小 規 模 な 実 験 で 測 定 2 各 消 費 者 のデモグラフィック 特 性 やブランドの 知 識 や 態 度 ( 興 味 魅 力 など)と 広 告 効 果 の 異 質 性 多 様 性 の 関 係 を 探 る 調 査 手 法 1 Web 調 査 を 用 いた 広 告 の 強 制 露 出 実 験 2 被 験 者 数 : 各 グループ100 人 16グループ =1600 人 3 各 ブランド5つの 広 告 素 材 (TVCM, 新 聞 広 告, 雑 誌 広 告, 交 通 広 告,Webサイトな ど) 4 露 出 前 後 にブランドの 知 識 や 態 度 を 質 問 直 交 表 L16( : 広 告 呈 示, : 呈 示 せず) A,B,,E: 広 告 素 材 AB,AC,,AE: 交 互 作 用
I- 2 階 層 ベイズモデルによる 消 費 者 異 質 性 を 考 慮 したクロスメディア 効 果 推 定 日 高 徹 司 ( 博 報 堂 ) 佐 藤 忠 彦 ( 筑 波 大 学 ) モデル 1 階 層 ベイズ 二 項 ロジットモデルを 適 用 共 通 パラメータ 1 目 的 変 数 : 広 告 露 出 後 のブランド 態 度 (Yh) θkj 2 説 明 変 数 : 広 告 露 出 の 有 無 (Xhj) Zhk 3 個 人 属 性 :Zhk 2 異 質 性 を 表 す 添 え 字 消 費 者 属 性 1 h: 消 費 者 2 k: 個 人 属 性 ID 3 j: 広 告 素 材 得 られた 知 見 1 広 告 の 効 果 は 個 人 ごとに 異 なるが,その 異 質 性 は 個 人 属 性 やブランドへの 態 度 で 予 測 可 能 2 特 にブランドへの 態 度 の 影 響 が 大 きく,ブランドに 対 して 好 意 的 であるほど 広 告 効 果 は 大 きい 傾 向 にあることがθkjから 確 認 できる βhj βhj Xhj Uh Yh 説 明 変 数 広 告 効 果 パラメータ 効 用 目 的 変 数
I-3 データセンタの 省 電 力 化 に 向 けた ICT 機 器 吸 込 温 度 予 測 手 法 の 検 討 橋 本 英 明, 松 尾 啓 吾 ( 日 本 電 信 電 話 株 式 会 社 ) 目 的 空 調 機 から 冷 却 が 容 易 なICT 機 器 において, 優 先 的 に 計 算 処 理 をすることで, 空 調 機 設 定 温 度 を 緩 和 し 省 電 力 化 を 図 る 空 調 機 とICT 機 器 の 総 合 消 費 電 力 を 最 小 化 する 空 調 動 作 点 と 動 作 ICT 機 器 を 分 析 ICT- Air conditioning coordinated control servers 動 作 ICT 機 器 ( 計 算 処 理 ) 温 度 消 費 電 力 CPU 負 荷 率 空 調 動 作 点 ( 温 度 風 量 冷 房 能 力 ) Air conditioner A サーバ 内 部 センサ ICT servers mounted in server racks Air conditioner B
I-3 データセンタの 省 電 力 化 に 向 けたICT 機 器 吸 込 温 度 予 測 手 法 の 検 討 橋 本 英 明, 松 尾 啓 吾 ( 日 本 電 信 電 話 株 式 会 社 ) 動 作 ICT 機 器 の 位 置 が 冷 却 に 与 える 効 果 空 調 機 吹 出 温 度 空 調 機 戻 り 温 度 23 25 21 26 23 25 Air conditioner 23 24 21 25 23 27 動 作 ICT 機 器 ( 発 熱 位 置 ) 変 更 に 伴 い 機 器 吸 込 温 度 が 低 下 3kW/ラック 3kW/ラック 7 改 善 ICT 機 器 最 大 吸 込 温 度 31 ICT servers mounted in server racks ICT 機 器 最 大 吸 込 温 度 24 課 題 ICT 機 器 の 吸 込 温 度 や 空 調 機 の 吹 出 温 度 等 の 運 用 情 報 に 基 づき,Dynamic PLSを 用 いてICT 機 器 の 吸 込 温 度 を 精 度 良 く 予 測 する
I-4 (x t ) (y t ) (IBIS2012) 15 2012 11 7 1 / 2
I-4 y t = α t + z t + e t, e t N (0, σ 2 ), t = 1,, T z t = β t x t + λ t z t 1, β t > 0, 0 < λ t < 1 θ t = (α t, βt, λ t ), βt = log(β t ), λ t = log( λ t 1 λ t ) θ t = θ t 1 + v t, v t N (0, Q) z t 1 λ t z t λ t+1 z t+1 x t 1 θ t 1 β t 1 x t θ t β t x t+1 θ t+1 y t 1 y t y t+1 β t+1 alpha 0 4 0 20 40 60 80 100 beta 00 03 0 20 40 60 80 100 lambda 00 06 0 20 40 60 80 100 (IBIS2012) 15 2012 11 7 2 / 2
5 製 品 修 理 作 業 レポートと 付 随 する 数 値 データの 関 係 性 分 析 山 本 忠, 吉 田 稔, 中 川 裕 志 ( 東 京 大 学 ) 渋 谷 久 恵, 前 田 俊 二 ( 日 立 製 作 所 ) 対 象 データ メーカー 製 品 の 修 理 作 業 のレポート - 各 文 書 は 短 い - 9675 文 書,3306 語 彙 作 業 費 用 を 示 す コストインデックスが 付 随 分 析 回 帰 分 析 :コストインデックスをより 説 明 できるようなモデルを 探 す 単 語 抽 出 :コストインデックスに 大 きな 影 響 を 与 える 単 語 を 抽 出 する
5 製 品 修 理 作 業 レポートと 付 随 する 数 値 データの 関 係 性 分 析 山 本 忠, 吉 田 稔, 中 川 裕 志 ( 東 京 大 学 ) 渋 谷 久 恵, 前 田 俊 二 ( 日 立 製 作 所 ) 実 行 手 法 様 々なモデルで 回 帰 精 度 の 比 較 や 単 語 抽 出 をおこなった 結 果 1) 回 帰 精 度 2) 単 語 抽 出 各 モデルで 単 語 の 値 段 を 算 出 する ( 辞 書 作 成 )
I-7 購 買 履 歴 データを 用 いた 消 費 者 の 選 好 構 造 の 空 間 的 表 現 手 法 の 提 案 石 田 実 (アークエンジン) 提 案 手 法 交 互 作 用 統 計 量 は 内 積 と 解 釈 できる 類 似 係 数 購 買 の 有 無 が2 項 分 布 に 従 うと 仮 定 して 消 費 者 を 空 間 的 表 現 ( 理 想 ベクトルモデル)できる すなわち c i1 c i2 消 費 者 i のベクトル 表 現 c i を 下 式 とすると c i = 1 mp i (1 p i ) m i 交 互 作 用 統 計 量 p i m (1 p i ) e s i1,i2 = (c i1, c i2 ) 内 積 ただし 消 費 者 n 人 のm 個 の 製 品 の 購 買 履 歴 を 表 す 行 列 を M = m i,j, i = 1,, n; j = k 1,, mとして p i = m i,k m m i はMの 第 i 行 e = (1,, 1) 要 検 証 (1) この 布 置 は 購 買 の 選 好 を 表 しているか? (2) 新 たな 知 見 の 発 見 ツールとして 有 用 か?
I-7 実 証 1 購 買 履 歴 データを 用 いた 消 費 者 の 選 好 構 造 の 空 間 的 表 現 手 法 の 提 案 石 田 実 (アークエンジン) 提 案 する 布 置 は 購 買 の 選 好 構 造 を 表 しているか? Yes 購 入 者 数 = 人 数 の 分 布 購 入 率 の 分 布 度 数 ( 密 度 ) 人 数 の 分 布 購 入 率 の 分 布 +1 人 数 が 少 ないが 購 入 率 は 高 い 特 定 の 製 品 の 購 入 者 の 分 布 の 中 心 的 購 入 者 近 い 0 遠 い 交 互 作 用 統 計 量 = 内 積 -1 人 数 が 多 いが 購 入 率 は 低 い 実 証 2 新 たな 知 見 の 発 見 ツール として 有 効 か? 新 製 品 の 新 規 購 入 者 の 分 布 の 推 移 まとめ 提 案 手 法 は (1) 線 形 表 現 なので 統 計 解 析 が 容 易 (2) 推 奨 システムや 市 場 構 造 分 析 に 有 効 人 数 近 い 拡 散 ( 普 及 ) 革 新 者 バラエティシーカー 遠 い 内 積 +1 0-1 追 随 者 Yes 潜 在 顧 客 の 分 布 の 推 移 に 関 する 知 見 を 得 た 時 間 経 過 収 縮 ( 同 質 化 ) ロイヤル 顧 客
Predicting Battery Life from Usage Trajectory Patterns 背 景 課 題 高 橋 俊 博 井 手 剛 IBM 東 京 基 礎 研 究 所 I-8 電 池 は 使 用 するにつれ 充 電 可 能 容 量 ( 容 量 維 持 率 )が 減 っていく 環 境 使 い 方 によって 劣 化 速 度 が 異 なる 劣 化 は 経 時 による 劣 化 と 通 電 による 劣 化 に 分 割 できる 経 時 による 劣 化 : 下 記 パラメータによって 単 位 時 間 当 たりの 劣 化 速 度 が 異 なる 温 度 SoC 通 電 による 劣 化 : 下 記 パラメータによって 単 位 通 電 量 当 たり の 劣 化 速 度 が 異 なる 温 度 SoC DoD SoC(=State of Chageの 略 で 充 電 残 量 ) DoD(Depth of Dischageの 略 で 充 放 電 時 のSoCの 幅 ) 特 徴 量 の 設 計 をどうするか? 支 配 的 な 劣 化 因 子 は 定 性 的 に 分 かっているが パラメタライ ズの 仕 方 は 未 だ 議 論 されていない 学 習 データが 少 ない 予 測 モデル 構 築 には 実 際 に 劣 化 が 進 んだ 多 量 のデータが 必 要 しかし 劣 化 試 験 はコストが 高 い 一 方 で 車 の 使 い 方 は 複 雑 (ブレーキ 回 生 など)で 少 ない データを 組 み 合 わせて これを 当 てる 必 要 がある 実 車 の 実 績 データもモデル 構 築 に 用 いたい 1 劣 化 試 験 パターン SC[%] SC[%] 45 degrees Celsius 45 SoC100% 放 置 試 験 100% 80% 60% 40% 20% 0% 0 10 20 30 40 time[hour] 25 degrees Celsius 25 SoC20% 放 置 試 験 100% 80% 60% 40% 20% 0% 0 10 20 30 40 time[hour] SC[%] SC[%] 45 degrees Celsius, 1C 45 SoC0%-100% DoD100% サイクル 試 験 100% 80% 60% 40% 20% 0% 0 10 20 30 40 time[hour] 100% 80% 60% 40% 20% 0% 45 degrees Celsius, 1C 25 SoC20%-80% DoD60% サイクル 試 験 0 10 20 30 40 time[hour] 実 走 行 パターン SC[%] 実 際 の 使 われ 方 Practical Use 100% 80% 60% 40% 20% 0% 0 10 20 30 40 time[hour] 限 られた 通 電 パターンの 試 験 結 果 を 組 み 合 わせて 複 雑 な 通 電 パターンの 電 池 劣 化 を 予 測 したい 2012 IBM Corporation
Predicting Battery Life from Usage Trajectory Patterns 高 橋 俊 博 井 手 剛 IBM 東 京 基 礎 研 究 所 I-8 提 案 手 法 SoC DoD 温 度 の3 次 元 空 間 におけるトラジェクトリ 回 帰 の 問 題 として 定 式 化 離 散 化 SoC DoD 温 度 の3 次 元 空 間 を 離 散 化 各 セルにおける 滞 在 時 間 通 電 量 を 積 算 する 各 セルに 回 帰 係 数 を 割 り 振 る 劣 化 量 を 線 形 のトラジェクトリ 回 帰 モデルで 扱 う 回 帰 係 数 回 帰 係 数 SoC 劣 化 量 セルcにおける 滞 在 時 間 セルcにおける 通 電 量 Temp DoD 残 差 項 パラメータ 数 が 多 いので 自 然 な 正 規 化 を 行 う 係 数 α βが 滑 らかに 変 化 するように 正 則 化 隣 接 するボクセルの 平 均 に 近 づける 正 則 化 項 目 的 関 数 = 残 差 項 + 正 則 化 項 係 数 ボクセル 目 的 関 数 は 二 次 関 数 なので 容 易 に 解 ける 結 果 実 応 用 可 能 な 電 池 劣 化 推 定 モデルを 提 案 した 実 データを 用 いて 従 来 手 法 (knnベース)と 比 較 して 19 倍 ~22 倍 の 精 度 向 上 を 達 成 した 二 乗 誤 差 の 比 予 測 の 様 子 2 2012 IBM Corporation
1001 I 9 医 用 画 像 におけるコンピュータ Webサイト 公 開 支 用 援 資 検 料 出 作 / 成 診 例 断 のための 機 械 学 習 : 遠 隔 読 影 環 境 による 情 学 多 太 施 設 郎 臨 (IBIS 床 使 大 用 学 下 での ) 識 別 器 の 更 新 野 村 行 弘 増 谷 佳 孝 三 木 聡 一 郎 根 本 充 貴 花 岡 昇 平 吉 川 健 啓 林 直 人 大 友 邦 ( 東 大 病 院 ) CIRCUSシステム 病 変 自 動 検 出 をはじめとするコンピュータ 支 援 検 出 / 診 断 (CAD) ソフトウェアの 研 究 開 発 / 臨 床 応 用 促 進 を 目 的 とした 統 合 的 な 臨 床 情 報 処 理 基 盤 (200901より 東 大 病 院 にて 運 用 ) CIRCUS DB (DataBase) 機 械 学 習 のための 疾 患 別 病 変 データベースおよび 登 録 システム (システム 開 発 者 向 け) CIRCUS CS (Clinical Server) WebインターフェイスによるマルチCAD 実 行 評 価 サーバシステム 評 価 (フィードバック)データはCADソフトウェアの 性 能 評 価 改 善 などに 利 用 CAD: computer assisted detection/diagnosis CIRCUS: Clinical Infrastructure for Radiologic Computation of United Solutions 目 的 遠 隔 読 影 環 境 にてCIRCUS CSシステムを 運 用 多 施 設 データ に 対 するCAD 実 行 およびフィードバックデータの 収 集 CIRCUS+プロジェクト(201109~) 東 大 病 院 放 射 線 科 開 発 のCADソフトウェア( 頭 部 MRA 脳 動 脈 瘤 検 出 および 胸 部 CT 肺 結 節 検 出 )を 使 用 多 施 設 データでの 運 用 に 伴 う 装 置 撮 像 法 の 多 様 化 による 性 能 低 下 とフィードバックデータを 用 いた 識 別 境 界 の 更 新 による 改 善 の 定 量 化 東 大 病 院 での 学 習 結 果 をそのまま 使 用 し 性 能 低 下 を 確 認 後 に フィードバックデータを 用 いて 再 学 習 し 性 能 を 再 評 価 図 1 CIRCUSシステムの 構 成 図 2 遠 隔 読 影 環 境 の 概 要
方 法 東 大 病 院 データベースで 学 習 したCADソフトウェアを 多 施 設 データに 使 用 し フィードバックデータを 収 集 CADの 更 新 は2 種 類 のデータベース( 東 大 病 院 CIRCUS+)の 情 報 を 用 いて 偽 陽 性 (FP) 削 減 処 理 用 識 別 器 の 再 学 習 を 行 う 図 4: 性 能 評 価 結 果 ( 脳 動 脈 瘤 検 出 ) 結 果 まとめ 図 3:CAD 学 習 用 データベースの 更 新 5 施 設 による7ヶ 月 間 の 臨 床 使 用 で 肺 結 節 および 脳 動 脈 瘤 検 査 の 約 6,000 症 例 に 対 してCADの 実 行 およびフィードバックデータを 収 集 東 大 病 院 開 発 のCADソフトウェアを 遠 隔 読 影 環 境 で 使 用 した 場 合 性 能 低 下 を 確 認 フィードバックデータを 用 いた 再 学 習 により 性 能 が 改 善 ( 図 4, 5) 5 FPs/scanにおいて 感 度 が74 %( 肺 結 節 検 出 ) 81 %( 脳 動 脈 瘤 検 出 ) 改 善 遠 隔 読 影 環 境 下 にCIRCUS CSシステムを 導 入 することにより CADソフトウェア の 多 施 設 同 時 運 用 およびフィードバックデータによる 性 能 改 善 が 可 能 図 5: 性 能 評 価 結 果 ( 肺 結 節 検 出 )
I-10 Rough setと 部 分 空 間 法 を 組 み 合 わせたリモートセンシング 画 像 分 類 手 法 ハスバガン, 山 形 与 志 樹 ( 独 立 行 政 法 人 国 立 環 境 研 究 所 ラフ 集 合 (Rough Sets) 境 界 下 近 似 (Lower Approximation) と 上 近 似 (Upper Approximation)の 計 算 [ ] [ ] R ( X) = { xx U, x X} = { xx U, y U xey y X} 上 近 似 下 近 似 R ( X) = { xx U, [ x] U } = { xx U, y U[ xeyy, X] } E E 訓 練 ピクセルxの 下 近 似 と 上 近 似 の 計 算 { } τ ( x) = τ ( TS( x)) = x { TS( y) TS( y) TS( x) ϕ} A A { } τ ( x) = τ ( TS( x)) = x { TS( y) TS( y) TS( x)} A A y U, y x y U, y x
I-10 Rough setと 部 分 空 間 法 を 組 み 合 わせたリモートセンシング 画 像 分 類 手 法 訓 練 データを 純 化 する Step 1: 下 近 似 で 訓 練 データ xの 各 ク ラ スでのメ ン バシッ プ 値 を 計 算 し メ ン バシッ プ 値 が 高 いク ラ スにxを 配 置 する 曖 昧 の 場 合 Step 2; Step 2: 境 界 集 合 でxの 各 ク ラ スに 所 属 する 平 均 メ ン バシッ プ 値 を 計 算 し 値 が 高 い 方 に 配 る まだ 曖 昧 の 場 合, xを 訓 練 データ 集 合 から 削 除 する; Step 3: 配 置 さ れた 全 ての 訓 練 データ を 精 査 し 元 のク ラ スと 違 う ク ラ スに 配 置 さ れた 訓 練 データ を 削 除 する 純 化 したデータを 使 った 部 分 空 間 法 Select study and test samples for each class 1Perform PCA on each class separately; 2Calculate major eigenvalues to generate class subspaces; 3Rotate subspace to reduce error; go 1 Pixel: x Training Projection 90 0 Compare subspace; utput P ( i) x Subspace 1Compute the projection lengths between pixel and each 2Pixel x is placed in the class that has the largest projection length
I-11 f f (pre-image) 化 合 物 空 間 G N N N N N N S? ➀ ➁ Á Á -1 特 徴 空 間 ÁG Ψ ➀ ➁ MCMC
(10-fold cv, SVM ) Mutag MM, FM, MR, FR Bio BBB BBB BZR, CX2, DHFR, ER Accuracy [%] 95 90 85 80 75 70 65 提 案 カーネル ECFP () 部 分 木 カーネル FCFP () 60 Mutag MM FM MR FR Bio BBB BZR CX2 DHFR ER pre-image ΨMCMC S Cl N H 2 N S S S F G A N N F Á Á(G A ) 0 (seed) Cl 10 30 100 Cl 目 的 化 合 物 F F F? H 2 N S F Á -1 Ψ 中 点 H 2 N F F H 2 N S N N Cl H 2 N S N N Cl H 2 N S N Cl G B 化 合 物 空 間 Á Á(G B ) 特 徴 空 間 F F F 1000 2701 (nearest) 4000 6000 MCMC
I-12 An nline Map Matching based on Hidden Markov Model Rudy Raymond, Sei Kato, Tetsuro Morimura ( 日 本 IBM), Masato Hattori( 青 山 学 院 大 学 ) Goals of online map matching: Given a sequence of GPS points and a map of road network, find the sequence of roads that most likely produce the points from the map online Possible road sequences from (1,2,3,4): A-B-C-D-E-F-G-H-I-J-K Z-Y-X-I-J-K GPS points Points on roads Why important? Prerequisite to finding patterns in mobility with efficient resources The base for many algorithms, eg, in a traffic simulation that extracts parameters from probe car data
I-12 An nline Map Matching based on Hidden Markov Model Rudy Raymond, Sei Kato, Tetsuro Morimura ( 日 本 IBM), Masato Hattori( 青 山 学 院 大 学 ) ur approach: HMM-based online map matching GPS are observed states and roads are hidden states Memorize the current state only Moderate computational cost -- Simple emission and transition probabilities -- Heuristic for storing potential matching candidates Ideal HMM Hidden state R t-1 R t R t+1 R T Z t-1 Z t Z t+1 Z T bservable state Point on roads GPS points Results: nline map-matching without time-sliding windows (delay) Comparable accuracies with the offline version -- Real-world sparse and noisy datasets
I-13 Jubatus: 大 大 大 比 戸 Preferred Infrastructure Jubatus2 立立 JubatusUpdate-Mix-Analyze
I-14 Modeling Patent Quality: A System for Large-scale Patentability Analysis using Text Analytics 鈴 木 祥 子 ( 日 本 アイ ビー エム 株 式 会 社 ) 提 案 手 法 特 許 の 質 を 評 価 する 指 標 を 導 入 するため 教 師 あり 学 習 を 行 い 各 特 許 明 細 書 のスコアを 計 算 - 明 細 書 から 各 種 特 徴 量 を 抽 出 し 数 値 化 - 教 師 データとして 審 査 請 求 された 特 許 が 成 立 するかどうかというラベルを 利 用 特 徴 量 明 細 書 の 各 種 統 計 量 - タイトルの 文 字 数 請 求 項 の 数 etc テキスト 解 析 を 利 用 した 特 徴 量 - 形 態 素 解 析 係 り 受 け 解 析 を 利 用 した 構 文 複 雑 性 の 導 入 - TF-IDF - 単 語 年 齢 の 導 入 学 習 モデル ロジスティック 回 帰 モデル - L2 正 則 化 - 明 細 書 の 出 願 年 についてマルチタスク 学 習 を 適 用
I-14 Modeling Patent Quality: A System for Large-scale Patentability Analysis using Text Analytics 鈴 木 祥 子 ( 日 本 アイ ビー エム 株 式 会 社 ) システム JP1998 -XXXX 出 願 番 号 可 視 化 モジュール JP1998- XXXX JP1998 -XXXX 発 明 タイトル パテンタビリティスコア :0653 特 徴 量 単 語 年 齢 登 録 拒 絶 個 別 出 願 ビュー 特 徴 量 リスト パテンタビリティ 予 測 モデル データベース ユーザー 2002 年 出 願 2003 年 出 願 比 較 対 象 グループ G-01 2002 年 出 願 願 平 均 スコア :0478 G-02 2003 年 出 願 願 平 均 スコア :0543 スコアヒストグラム 02 03 スコアテーブル 特 徴 量 テーブル グループ 比 較 ビュー グループテーブル 予 測 精 度 まとめ IPC=H01l : AUC=062 IPC=G06f : AUC=069 システムアーキテクチャー 可 視 化 モジュール 出 力 例 特 許 の 質 を 客 観 的 な 指 標 で 評 価 するシステムを500 万 件 超 の 明 細 書 で 実 現 予 測 精 度 はまだ 十 分 でないが 今 後 の 工 夫 で 精 度 向 上 の 可 能 性 が 高 い
I-15 何 を 調 べよ うとしている か 知 られた くない * * 主 に 個 人 情 報 保 護 法 のため 研 究 者 しかし 検 索 内 容 を 見 せたくない 検 索 結 果 以 上 の 情 報 を 与 えたくない ジレンマの 解 消 が 急 務! DB 必 要 以 上 の 情 報 は 与 えたくな い * * ライフサイエンスデータの 収 集 にはコストがかかるため
従 来 技 術 (MPC) 提 案 手 法 (サーバー) 提 案 手 法 (ユーザー) d n Tanimoto q p q p S 0 ) ( ) ( ) ( q p q p n n n d T p, q T T