IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

Similar documents
一般社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 IEICE Technical Report 形態素 N-gram を用いた不具合修正完了ソースコードの特定 河居寛樹

1. はじめに 2

nlp1-12.key

スライド 1

スライド 1

2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索と

表1-表4宅建99.indd

表1-表4宅建98.indd

表1-表4宅建101.indd

表1-表4宅建いわて-表紙.indd

1. 開発ツールの概要 1.1 OSS の開発ツール本書では OSS( オープンソースソフトウェア ) の開発ツールを使用します 一般に OSS は営利企業ではない特定のグループが開発するソフトウェアで ソースコードが公開されており無償で使用できます OSS は誰でも開発に参加できますが 大規模な

06佐々木雅哉_4C.indd

改版履歴 版数 日付 内容 担当 V /3/9 初版発行 STS V /5/4 エラー画面の削除 STS V //3 サポート環境の追加 サポート環境の説明文章の STS 修正 画面修正 V /2/25 サポート環境変更 STS V

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

Linux Activities for Promoting Desktop Linux Utilization Jun Iio Research Center for Information Technology, Mitsubish

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

Microsoft Word - 保守運用ガイドライン_080122CSAJ修正.doc

プレポスト【解説】

グーグル検索マクロの使い方

IPSJ SIG Technical Report Vol.2014-DBS-160 No.21 Vol.2014-OS-131 No.2 Vol.2014-EMB-35 No /11/18 1,2,a) 2,b) 2,c) 1,d) 2,e) Web Web Twitter Web

Ver.30 改版履歴 版数 日付 内容 担当 V //3 初版発行 STS V..0 05//6 パスワード再発行後のパスワード変更機能追加 STS V..0 05//5 サポート環境変更 STS V //9 サポート環境の追加 STS ii

スライド 1

<4D F736F F D E835A A C98AD682B782E98E77906A89FC92F994C52E646F63>

( ) ver.2015_01 2



DX-PC55_−ç(0)-A


untitled

第5回東京都廃棄物審議会

西食堂


フィジカルコンディショニング

PowerPoint プレゼンテーション

支援リスト3/30.xls

untitled

PowerPoint プレゼンテーション


改版履歴 版数 日付 内容 担当 V /2/25 初版発行 STS V //9 サポート環境の追加 STS 2

スライド 1

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

untitled


40_No43.indd

2007.3„”76“ƒ


201_P1_P24(2)

indd


sayo pdf

月信11-12pdf用.indd

広報ちくしの_ indd


P01-14.indd

新善-1208

レッツ中央205号.indd

8_p01.indd

えふ・サポート-113号-162.indd




d


1_p01.indd

レッツ中央210号.indd


レッツ中央212号.indd

0405宅建表01.indd

広報ちくしの_ indd

katagami No.65

2

PDF


スライド 1

卒論タイトル

AppsWF ワークフロー設定ガイド Ver.1.1 株式会社オプロ



2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

SOC Report

untitled


Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

(Microsoft Word - \221\262\230_\215\305\217I\224\305.doc)



Ver1.10 セコムあんしんログインサービス利用者マニュアル ID パスワード認証 +ワンタイムパスワード認証 (Mac OS X) 2015 年 1 月 26 日 セコムトラストシステムズ株式会社 Copyright SECOM Trust Systems CO.,LTD. All Rights

help_ja


IPSJ SIG Technical Report Vol.2016-CLE-19 No /5/20 1,a) 2,b) 3,c) Proposal of self-reflection using the video-sharing site NISHIOKU Kazukiyo 1,a

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

レベルアップ詳細情報 < 製品一覧 > 製品名 バージョン < 追加機能一覧 > 管理番号 内容 説明書参照章 カナ文字拡張対応 < 改善一覧 > 管理番号 内容 対象バージョン 説明書参照章 文字列のコピー ペースト改善 ~ 子画面の表示方式 ~ 履歴の詳細情報 ~ タブの ボタン ~ 接続時の管

内容 Visual Studio サーバーエクスプローラで学ぶ SQL とデータベース操作... 1 サーバーエクスプローラ... 4 データ接続... 4 データベース操作のサブメニューコンテキスト... 5 データベースのプロパティ... 6 SQL Server... 6 Microsoft

本文/森枝卓士

インストール方法 同封の インストールの方法 ( 頻度のヒント ).pdf をご覧ください 体験版のパスワードの取得 [ 頻度のヒント ] ボタンをクリックすると 以下のダイアログボックスが表示されます 体験版パスワードの入力ダイアログボックス [ 体験版パスワードの取得 ] ボタンをクリックすると

文字入3-2 力3 文字入力について ひらがな 漢字 カタカナ 英数字 記号 絵文字などが入力できます ダイヤルボタンの文字割り当てについて (ZP.17-12) ❶ ❷ ❸ ❶ 入力モード切替操作漢 : 漢字 ひらがな入力モード 1 カナ : カタカナ入力モード英 : 英字入力モード数 : 数字入

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

A

1

無料で多機能な OSS の ETL ツール Kettle を使ってみよう! 情報政策課技術職員金森浩治 1. はじめにデータ処理を行うにあたって非常に便利なツール ETL 本稿では OSS の ETL Kettle の機能とその使用方法を紹介します 2. 用語説明 2.1 OSS とは? OSS と

Transcription:

1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version Control System: VCS)?? 1 NNCT, 22 Yatatyou,Yamatokoriyamashi, Nara 639 1080, Japan a) h-kawai@info.nara-k.ac.jp b) uwano@info.nara-k.ac.jp OSS 300? BTS VCS? 1 BTS 1 ML N-gram 2. 1)BTS 2)ML c 2012 Information Processing Society of Japan 1

3) VCS OSS Google code Source Forge BTS ML VCS BTS ML 1 3 VCSBTSML BTS ML VCS BTS BTS ML VCS BTS ML VCS? BTS VCSML Wiki 1 ( 1 ) VCS BTS ML Ver.1 Ver.2 Ver.3 Bug.1 Bug.2 Msg.1 Msg.2 Bug.3 Msg.3 Ver.4 1 ( 2 ) ( 3 ) 3. N-gram 3.1 N-gram MeCab *1 3.2 N-gram N-gram N N 3 N-gram 6 3 N-gram N 3.3 N-gram N-gram N-gram *1 http://code.google.com/p/mecab/ c 2012 Information Processing Society of Japan 2

情報処理学会研究報告 2ᙧ =1䝣䝺䞊䝈 ( 3 ) ソースコードのバージョン管理システムから すべて のソースコードのコミットコメントに対して フレー 形態素 形 がメ モリリーク を起こして いる 態 素 解 析 が メモリ リーク を 起こし て いる ズが含まれているか検索する N-gram バグ報告 ( 4 ) コミットコメントがフレーズを含んでいた場合 含ま れていた回数をカウントする 3ᙧ =1䝣䝺䞊䝈 ( 5 ) より多くのフレーズを含んでいたコミットコメントが 上位になるように順位を付ける ( 6 ) 上位数件のコミットコメントに対応したソースコード を 修正候補として開発者に提示する 図 2 形態素 N-gram の処理 4. 予備実験 実験を行う前に バグ報告文に存在するフレーズがソー 手法である 形態素解析は文章から形態素を切り出すた スコードのコミットコメントにどの程度存在するのか予備 め 意味を得ることができるが 形態素同士の前後関係を 実験で調査する 予備実験では すでに修正が完了したバ 得ることはできない また N-gram は文章から連続した グ報告のコメントに形態素 N-gram を適用し 抽出したフ 文字列を切り出すため 文字列の前後関係は得られるが レーズが修正されたソースコードのコミットコメントに存 文字列の意味を得ることはできない そこで この2つを 在するか調査する 提案手法の推薦精度はフレーズを抽出 組み合わせることにより 文字単位ではなく形態素を単位 するときの形態素 N-gram の N の値によって異なると考え として 文章に N-gram を適用することで複数単語からな られるため 形態素 N-gram の N の値を 1 から 10 まで変 るフレーズや文を抽出できる バグ報告に対して形態素 化させて実験を行う N-gram を行う例を図 2 に示す 予備実験の結果を図 4 に示す 図より 形態素 N-gram 図中の のフラグを更新する という文章の場合 の N の値を大きくするごとに抽出したフレーズを含むコ 形態素解析を行うことにより の フラグ ミットコメントは少なくなっている そのため N を 10 を 更新する という 5 つの形態素に分割され N-gram 以上にして実験を行うメリットは無いと考えられる により 2 形態素を 1 フレーズとして 4 つのフレーズを抽出 N の値が 5 以下のときに 抽出したフレーズを含むコ している N-gram のみの場合 N が 3 の N-gram によっ ミットコメントは 修正されたソースコードのコミットコ て フラグ を抽出できるが ラグを といった 元の文 メントの総数の半分以上存在している これより 修正が 章とは意味の異なる文字列が取り出され 異なる文章を推 完了したバグ報告文から抽出したフレーズをもとに 実際 薦してしまう可能性がある 形態素 N-gram では 最小単 に修正されたソースコードを探しだすことができると考え 位を形態素として N-gram でフレーズを求めることで 元 られる また N の値が小さいほど多くのコミットコメン の文章と異なる意味を持つ文字列や単語の抽出を抑制でき トに抽出したフレーズが存在している これは N の値が るため 推薦精度が高くなると考えられる 小さいということはフレーズが短いということでもあり 提案手法は形態素 N-gram を用いることでバグ報告コメ フレーズをもとにソースコードを探しだす際に検索のノイ ントからフレーズを切り出し コミットコメントに含まれ ズとなる可能性がある 本実験では ノイズとなる情報を るフレーズと比較することで バグ報告とソースコードを 除去しつつ 高い精度でフレーズを元にソースコードを探 リンク付ける し出せる形態素 N-gram の N の値を求める実験を行う 3.4 手順 提案手法の処理手順を図 3 に示す 手順1では実際に開 5. 実験 提案手法を用いた推薦の精度を評価するために実験を行 発者がバグ報告を読み ソースコードを探すことを想定し う 実験ではオープンソースソフトウェアの開発プロジェ 開発者が閲覧しているバグ報告としてバグ報告を 1 件取り クトに報告されたバグ報告と ソースコードのコミットコ 出している メントに対して提案手法を適用し 精度を求める 予備実 ( 1 ) バグ管理システムからバグ報告を 1 件取り出す 験と同様に N を 1 から 10 まで 1 ずつ増やし それぞれの ( 2 ) 取り出したバグ報告の文章を形態素 N-gram を適用し 場合の推薦精度を評価する また 提案手法の有用性を確 フレーズを抽出する 認するために TF-IDF を用いた推薦手法と比較する このとき 形態素 N-gram は文章を読点や など文の終わりや文の先頭を示す記号で区切り 文を またいだフレーズの抽出は行わない c 2012 Information Processing Society of Japan 5.1 推薦対象 実験に用いるデータは 日本語で記述可能なプログラミ 3

3 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 4 2008 10 2010 9 BTS VCS BTS VCS 153 1842 158 5.2 1 5 10 1 5 10 1 (1) 0 1 = n (1) 5.3 N-gram N 1 10 N-gram N N 5.4 TF-IDF TF-IDF (term)?tf-idf (2) (4) tf c,n = d c,n C i=1 d i,n (2) D idf c = log e {d : t c d} (3) T F IDF c,n = tf c,n idf c (4) tf c,n c n d c,n n n c idf c c DF(Document Frequency) D c 2012 Information Processing Society of Japan 4

{d : t c d} c idf c (4) TF-IDF TF-IDF?? TF-IDF TF-IDF 5 ( 1 ) ( 2 ) ( 3 ) TF-IDF ( 4 ) ( 5 ) TL-IDF TF-IDF ( 6 ) TF-IDF ( 7 ) 5.5 ( 1 ) 153 ( 2 ) 153 ( 3 ) N-gram 1. 2. ( 4 ) TF-IDF 1. 2. ( 5 ) 3. 4. 6. 6.1 TF-IDF TF-IDF 1 1 TF-IDF N 1 5 10 1 0.310 0.367 0.392 2 0.411 0.506 0.557 3 0.759 0.911 0.981 4 0.703 0.842 0.873 5 0.709 0.835 0.867 6 0.589 0.646 0.646 7 0.538 0.576 0.576 8 0.443 0.475 0.475 9 0.411 0.443 0.443 10 0.329 0.354 0.354 TF-IDF 0.634 0.876 0.915 6 1 N-gram N 1 10 N 3 TF-IDF 1 N 345 TF-IDF TF-IDF 2 TF-IDF 3 984 5552 3 36.9% 3 893 1250 5.44%1 58.2% 3 7 3 3 1 c 2012 Information Processing Society of Japan 5

5 7 3 5552 1250 57.9% 84.3% 1 TF-IDF TF-IDF 6.2 N-gram N 1 10 1 5 10 6 N N 3 1 0.759 5 0.911 10 0.981 N N 1 1 8 1 86.6% 27 10 34.8% N N N=10 10 34.8% 153 N N 6.3 10 5 N 5 1 5 10 N-gram c 2012 Information Processing Society of Japan 6

8 1 5 10 5 10 1 1 5 10 5 10 1 75.9%TF-IDF 12.5% 8 1 7 OSS OSS 7. N-gram 75.9% TF-IDF N 3 TF-IDF N-gram TF-IDF 10 3 1 c 2012 Information Processing Society of Japan 7