IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version Control System: VCS)?? 1 NNCT, 22 Yatatyou,Yamatokoriyamashi, Nara 639 1080, Japan a) h-kawai@info.nara-k.ac.jp b) uwano@info.nara-k.ac.jp OSS 300? BTS VCS? 1 BTS 1 ML N-gram 2. 1)BTS 2)ML c 2012 Information Processing Society of Japan 1

3) VCS OSS Google code Source Forge BTS ML VCS BTS ML 1 3 VCSBTSML BTS ML VCS BTS BTS ML VCS BTS ML VCS? BTS VCSML Wiki 1 ( 1 ) VCS BTS ML Ver.1 Ver.2 Ver.3 Bug.1 Bug.2 Msg.1 Msg.2 Bug.3 Msg.3 Ver.4 1 ( 2 ) ( 3 ) 3. N-gram 3.1 N-gram MeCab *1 3.2 N-gram N-gram N N 3 N-gram 6 3 N-gram N 3.3 N-gram N-gram N-gram *1 http://code.google.com/p/mecab/ c 2012 Information Processing Society of Japan 2

情報処理学会研究報告 2ᙧ =1䝣䝺䞊䝈 ( 3 ) ソースコードのバージョン管理システムからすべてのソースコードのコミットコメントに対してフレー形態素形がメモリリークを起こしている態素解析がメモリリークを起こしているズが含まれているか検索する N-gram バグ報告 ( 4 ) コミットコメントがフレーズを含んでいた場合含まれていた回数をカウントする 3ᙧ =1䝣䝺䞊䝈 ( 5 ) より多くのフレーズを含んでいたコミットコメントが上位になるように順位を付ける ( 6 ) 上位数件のコミットコメントに対応したソースコードを修正候補として開発者に提示する図 2 形態素 N-gram の処理 4. 予備実験実験を行う前にバグ報告文に存在するフレーズがソー手法である形態素解析は文章から形態素を切り出すたスコードのコミットコメントにどの程度存在するのか予備め意味を得ることができるが形態素同士の前後関係を実験で調査する予備実験ではすでに修正が完了したバ得ることはできないまた N-gram は文章から連続したグ報告のコメントに形態素 N-gram を適用し抽出したフ文字列を切り出すため文字列の前後関係は得られるがレーズが修正されたソースコードのコミットコメントに存文字列の意味を得ることはできないそこでこの２つを在するか調査する提案手法の推薦精度はフレーズを抽出組み合わせることにより文字単位ではなく形態素を単位するときの形態素 N-gram の N の値によって異なると考えとして文章に N-gram を適用することで複数単語からなられるため形態素 N-gram の N の値を 1 から 10 まで変るフレーズや文を抽出できるバグ報告に対して形態素化させて実験を行う N-gram を行う例を図 2 に示す予備実験の結果を図 4 に示す図より形態素 N-gram 図中ののフラグを更新するという文章の場合の N の値を大きくするごとに抽出したフレーズを含むコ形態素解析を行うことによりのフラグミットコメントは少なくなっているそのため N を 10 を更新するという 5 つの形態素に分割され N-gram 以上にして実験を行うメリットは無いと考えられるにより 2 形態素を 1 フレーズとして 4 つのフレーズを抽出 N の値が 5 以下のときに抽出したフレーズを含むコしている N-gram のみの場合 N が 3 の N-gram によっミットコメントは修正されたソースコードのコミットコてフラグを抽出できるがラグをといった元の文メントの総数の半分以上存在しているこれより修正が章とは意味の異なる文字列が取り出され異なる文章を推完了したバグ報告文から抽出したフレーズをもとに実際薦してしまう可能性がある形態素 N-gram では最小単に修正されたソースコードを探しだすことができると考え位を形態素として N-gram でフレーズを求めることで元られるまた N の値が小さいほど多くのコミットコメンの文章と異なる意味を持つ文字列や単語の抽出を抑制できトに抽出したフレーズが存在しているこれは N の値がるため推薦精度が高くなると考えられる小さいということはフレーズが短いということでもあり提案手法は形態素 N-gram を用いることでバグ報告コメフレーズをもとにソースコードを探しだす際に検索のノイントからフレーズを切り出しコミットコメントに含まれズとなる可能性がある本実験ではノイズとなる情報をるフレーズと比較することでバグ報告とソースコードを除去しつつ高い精度でフレーズを元にソースコードを探リンク付けるし出せる形態素 N-gram の N の値を求める実験を行う 3.4 手順提案手法の処理手順を図 3 に示す手順１では実際に開 5. 実験提案手法を用いた推薦の精度を評価するために実験を行発者がバグ報告を読みソースコードを探すことを想定しう実験ではオープンソースソフトウェアの開発プロジェ開発者が閲覧しているバグ報告としてバグ報告を 1 件取りクトに報告されたバグ報告とソースコードのコミットコ出しているメントに対して提案手法を適用し精度を求める予備実 ( 1 ) バグ管理システムからバグ報告を 1 件取り出す験と同様に N を 1 から 10 まで 1 ずつ増やしそれぞれの ( 2 ) 取り出したバグ報告の文章を形態素 N-gram を適用し場合の推薦精度を評価するまた提案手法の有用性を確フレーズを抽出する認するために TF-IDF を用いた推薦手法と比較するこのとき形態素 N-gram は文章を読点やなど文の終わりや文の先頭を示す記号で区切り文をまたいだフレーズの抽出は行わない c 2012 Information Processing Society of Japan 5.1 推薦対象実験に用いるデータは日本語で記述可能なプログラミ 3

3 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 2 3 4 5 6 7 8 9 10 4 2008 10 2010 9 BTS VCS BTS VCS 153 1842 158 5.2 1 5 10 1 5 10 1 (1) 0 1 = n (1) 5.3 N-gram N 1 10 N-gram N N 5.4 TF-IDF TF-IDF (term)?tf-idf (2) (4) tf c,n = d c,n C i=1 d i,n (2) D idf c = log e {d : t c d} (3) T F IDF c,n = tf c,n idf c (4) tf c,n c n d c,n n n c idf c c DF(Document Frequency) D c 2012 Information Processing Society of Japan 4

{d : t c d} c idf c (4) TF-IDF TF-IDF?? TF-IDF TF-IDF 5 ( 1 ) ( 2 ) ( 3 ) TF-IDF ( 4 ) ( 5 ) TL-IDF TF-IDF ( 6 ) TF-IDF ( 7 ) 5.5 ( 1 ) 153 ( 2 ) 153 ( 3 ) N-gram 1. 2. ( 4 ) TF-IDF 1. 2. ( 5 ) 3. 4. 6. 6.1 TF-IDF TF-IDF 1 1 TF-IDF N 1 5 10 1 0.310 0.367 0.392 2 0.411 0.506 0.557 3 0.759 0.911 0.981 4 0.703 0.842 0.873 5 0.709 0.835 0.867 6 0.589 0.646 0.646 7 0.538 0.576 0.576 8 0.443 0.475 0.475 9 0.411 0.443 0.443 10 0.329 0.354 0.354 TF-IDF 0.634 0.876 0.915 6 1 N-gram N 1 10 N 3 TF-IDF 1 N 345 TF-IDF TF-IDF 2 TF-IDF 3 984 5552 3 36.9% 3 893 1250 5.44%1 58.2% 3 7 3 3 1 c 2012 Information Processing Society of Japan 5

5 7 3 5552 1250 57.9% 84.3% 1 TF-IDF TF-IDF 6.2 N-gram N 1 10 1 5 10 6 N N 3 1 0.759 5 0.911 10 0.981 N N 1 1 8 1 86.6% 27 10 34.8% N N N=10 10 34.8% 153 N N 6.3 10 5 N 5 1 5 10 N-gram c 2012 Information Processing Society of Japan 6

8 1 5 10 5 10 1 1 5 10 5 10 1 75.9%TF-IDF 12.5% 8 1 7 OSS OSS 7. N-gram 75.9% TF-IDF N 3 TF-IDF N-gram TF-IDF 10 3 1 c 2012 Information Processing Society of Japan 7