コンピュータ応用・演習 情報処理システム

Similar documents
Microsoft PowerPoint - 13AssociationRules-01.ppt [互換モード]

Microsoft PowerPoint - LDW.ppt [互換モード]

PSCHG000.PS

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

48 * *2


メール利用マニュアル (Web ブラウザ編 ) 1

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

PSCHG000.PS

untitled

Microsoft PowerPoint - 13AssociationRules-01.ppt [互換モード]

ビークル分析重複閲読者率集計 調査回設定 3 調査回選択 分析対象の調査回を選択します 設定 > ボタンを押下すると 指定した調査回が確定されます 3 次画面へ遷移 地区 > ボタンを押下すると

VR-CIP ACR/ex 2.3. ビークル分析利用率集計 ( 新聞 ) 59 ACR/ex 調査回設定画面 機能説明 4 調査回選択 分析対象の調査回を選択します 設定 > ボタンを押下すると 指定した調査回が確定されます この場合 調査回のオフィシャル有効が分母になります 3 次画面へ遷移 地

次に示す数値の並びを昇順にソートするものとする このソートでは配列の末尾側から操作を行っていく まず 末尾の数値 9 と 8 に着目する 昇順にソートするので この値を交換すると以下の数値の並びになる 次に末尾側から 2 番目と 3 番目の 1

変更要求管理テンプレート仕様書

リスクテンプレート仕様書

NGSデータ解析入門Webセミナー

2019/02/13 TCU Storage TCU アカウントを持つ人同士とのファイル共有 TCU アカウントを持つ人同士でのファイル共有の手順を解説します はじめに 以下を 参考にして グループ申請 をおこなってください グループ申請 1. ポータルサイトから グループ申請 手続きをおこないます


(2)【講義】

部品ライブラリシステム

Microsoft PowerPoint - NC12-2.pptx

VR-CIP ACR/ex 4.1. ビークル分析重複率集計 160 ACR/ex 調査回設定画面 機能説明 3 調査回選択 分析対象の調査回を選択します 設定 > ボタンを押下すると 指定した調査回が確定されます この場合 調査回のオフィシャル有効が分母になります 3 次画面へ遷移 地区 > ボタ

Microsoft Word Proself-guide4STD+Prof.docx

5_motif 公開版.ppt

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

アンケートの準備 集計方法... 3 アンケート作成の流れ... 3 アンケート集計の流れ... 5 テストの一括取り込み 再利用の方法... 7 テストの一括取り込み方法... 7 テストの再利用の方法... 9 テストのオプション設定活用の場面 学生が同じ課題へレポートを複数回提出し

2006年10月5日(木)実施

Microsoft PowerPoint - 13approx.pptx

スライド タイトルなし

2007年度版

JOCAR操作マニュアル アウダセブン連動

携帯電話を登録する 3 携帯電話で教員からのお知らせおよびレポート課題の情 報が得られます. 従来型携帯電話を利用するための情報登 録はパソコンを使って行います. スマートフォンユーザは スマートフォンユ ーザ向けガイド を参照してください. 携帯メールアドレスの登録 授業選択領域にて My Wor

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

. 起動 目次 P.. ログイン 画面 P.. メニュー 画面 P.. POS 開示 _ 指定店舗 アイテム別 期間合計 画面 ( レポート A) P. 5. POS 開示 _ 店舗別 指定アイテム 期間合計 画面 ( レポート B) ----

Java KK-MAS チュートリアル

ビークル分析利用率集計 調査回設定 調査回選択 分析対象の調査回を選択します 設定 > ボタンを押下すると 指定した調査回が確定されます 操作説明 3 操作説明 3 次画面へ遷移 地区 > ボタンを押下すると 次画面の地区設定画面に遷移し

障害管理テンプレート仕様書

プログラミング入門1

マニュアルの見方 マニュアルの見方 マニュアルの見方について説明します 操作の前提条件です ある場合のみ記載しています 操作の前に確認してほしい重要事項です ある場合のみ記載しています 1 操作手順に対応した操作画面上の操作 箇所です 関連ページがある場合は 参照先の ページ番号を記載しています 操

<4D F736F F D20837D836A B5F93C192E88C AC888D593FC97CD5F2E646F63>

PowerPoint プレゼンテーション



_unix_text_command.pptx

SimLabプラグインは各機能を15回分評価版として試用できます

データベースと情報検索

1 (1) vs. (2) (2) (a)(c) (a) (b) (c) 31 2 (a) (b) (c) LENCHAR

ファイルのアップロード. 上メニューから [ アップロード ] を選択します. [ アップロード ] 画面に移行しますので, 以下の手順で操作を行います アップロードするファイルを選択し, 指定場所へ [ ドラッグ & ドロップ ] します ドラッグ & ドロップ ファイルがリストアップされたことを

ez_mail-err-reflect-file.ppt

memo

SimLab Plugins for SketchUp 評価版インストールおよびアクティベート方法 注意事項 評価版をお使い頂くには 評価用ライセンスでのアクティベートが必要です 評価用ライセンスファイルの取得を行い 手動でアクティベートする必要があります 各 SimLab プラグインは 評価用とし

PowerPoint プレゼンテーション

Prog1_12th

<4D F736F F D208CF68BA48C6F8DCF8A C30342C CFA90B68C6F8DCF8A7782CC8AEE967B92E8979D32288F4390B394C529332E646F63>


簡単な検索と整列(ソート)

審査手引書

Microsoft PowerPoint - sc7.ppt [互換モード]

要求仕様管理テンプレート仕様書

Microsoft PowerPoint - ad11-09.pptx

このうち ツールバーが表示されていないときは メニューバーから [ 表示 (V)] [ ツールバー (T)] の [ 標準のボタン (S)] [ アドレスバー (A)] と [ ツールバーを固定する (B)] をクリックしてチェックを付けておくとよい また ツールバーはユーザ ( 利用者 ) が変更

Microsoft PowerPoint - TUFS_Moodle_Manual_ver5.3.pptx

今月の呼びかけ 添付資料 ファイル名に細工を施されたウイルスに注意! ~ 見た目でパソコン利用者をだます手口 ~ 2011 年 9 月 IPA に RLTrap というウイルスの大量の検出報告 ( 約 5 万件 ) が寄せられました このウイルスには パソコン利用者がファイルの見た目 ( 主に拡張子

Microsoft PowerPoint - pr_12_template-bs.pptx

DB STREET 設置マニュアル

変更履歴 版数変更日変更内容 /9/1 初版設定

Microsoft Word - XOOPS インストールマニュアルv12.doc

【アフィリコードプラス/管理者】システム・デザイン設定マニュアル

はじめに このスタートアップマニュアルは はじめて弊社サービスをご利用される方のためにご用意していますので ホームページ運営に必要な ごく基本的な使い方だけをご紹介しています 詳しい使い方の説明は オンラインマニュアルをご覧ください ホームページ運営にあたりどんなによい商品やすばらしい技術であっても


管理サイト操作マニュアル Version.1.1. デジアナコミュニケーションズ株式会社

Webプログラミング演習

Microsoft PowerPoint - citation reports11_7_学内用.ppt

サイボウズ Office 8 リンク集マニュアル

EPSON VP-1200 取扱説明書

オフラインファイルを開く 同期 情報確認

33-2 一般ユーザー用 :FAX 受信トレイ 受信 FAX を検索する FAX 一覧画面の左側より 検索をクリックしますと FAX 検索画面が表示されます FAX 検索画面 画面左側項目 FAX 名キーワードボタン抽出戻る全て省略全て展開日付フォルダ受信 FAX 画面右側項目 FAX 名未読 FA

PSCHG000.PS


迷惑メール対策[Barracuda]操作マニュアル

Microsoft PowerPoint CTEㅞㅉㅥ㇢ㅫVer3.0.pptx

AutoCAD LT2000i

tokyo_t3.pdf

1.4. ローカル ( オフラインファイル ) オフラインファイルを開く 同期 情報確認

KDDI ホスティングサービス G120 KDDI ホスティングサービス G200 WordPress インストールガイド ( ご参考資料 ) rev.1.2 KDDI 株式会社 1

データ構造

1. ユーザー管理 サーバーや特定のサービスにアクセスするためには サーバー上にユーザーアカウントが設定されている必要があります また ユーザーごとに利用環境などを個別に設定することができます また ユーザーの管理の簡便化を図るためにグループが設定できます グループを設定することで ユーザーごとの設

スライド 1

スライド 1

3.Cygwin で日本語を使いたい Cygwin で以下のコマンドを実行すると それ以降 メッセージが日本語になります export LANG=ja_JP.UTF-8 これは 文字コードを日本語の UTF-8 に設定することを意味しています UTF-8 は Cygwin で標準の文字コードで, 多

2016年9月28日 機能強化

Office365        メールの使い方マニュアル

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

目次 Webフォルダの特長と仕組み 3 Webフォルダの開き方 4 1 児童生徒の場合 4 2 先生の場合 5 Webフォルダ機能 ファイルのアップロード ( 保存 ) 6 ファイルのダウンロード 7 ファイルの開き方 8 新規フォルダの作成 9 フォルダ ファイルの名称の変更 10 フォルダ ファ

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Microsoft Word - ehondbonXAMPPについて ver.1.1

PowerPoint Presentation

「住宅に関する防犯上の指針」案

2-1 / 語問題 項書換え系 4.0. 準備 (3.1. 項 代入 等価性 ) 定義 3.1.1: - シグネチャ (signature): 関数記号の集合 (Σ と書く ) - それぞれの関数記号は アリティ (arity) と呼ばれる自然数が定められている - Σ (n) : アリ

Transcription:

2010 年 12 月 15 日 データエンジニアリング 演習 情報処理システム データマイニング ~ データからの自動知識獲得手法 ~

1. 演習の目的 (1) 多種多様な膨大な量のデータを解析し, 企業の経営活動などに活用することが望まれている. 大規模データベースを有効に活用する, データマイニング技術の研究が脚光を浴びている 1

1. 演習の目的 (2) POS データを用いて顧客の購買パターンを分析する. 相関ルール抽出を体験 ( 例 1) コンビニエンスストアの商品配置もし, アイスクリーム と 缶コーヒー が同時に買われる可能性が高い この 2 つの商品を近くに置くことで, 購買意欲を促進させられる 2

2. データマイニングとは 大規模データベースを扱うことを前提とし, 必要かつ十分な情報を高速に得ようとする手法 膨大な量の一般的ルールの中に埋もれて今まで発見されなかったようなルールを抽出 データマイニングは, 高速性を必要とするため, 統計手法ほど厳密に解析できない 3

3. データマイニング手法の分類 相関ルールの抽出おにぎりとお茶が同時に売れるなどの商品間の相関を発見する. 代表的手法として, アプリオリアルゴリズムがある. クラスタリング顧客データから近々自動車を購入しそうな客のクラスタ ( 集合 ) を発見する. 分類ルールクレジットカードに新規入会を希望する顧客に対して, 過去のカード債務者データから, 優良顧客 危険顧客に分類して入会の判断を行う. 4

4.1 相関ルールの定義 (1) 定義 1( 相関ルール ) 商品 = アイテム レシート = トランザクション I を全アイテム集合 ( 全商品 ), X, Y を I の部分集合と定義. 各トランザクション ( レシート ) において, X が成立する時に Y が高い確率で成立する規則を相関ルールという. 5

4.1 相関ルールの定義 (2) 定義 2 X ならば,Y である ことを X Y と表す. ただし,X, Y I, X Y = φ である. 例 2 鮭弁当を買う人が, 温かいお茶を高い確率で買うこと は X ={ 鮭弁当 } Y = { 温かいお茶 } 6

4.2 相関ルールの評価基準 (1) 数ある相関ルールの中で, 実際には有用なルールだけを抽出したい. 相関ルールを評価する 7

4.2 相関ルールの評価基準 (2) 相関ルールを評価するための指標支持度 (support) 確信度 (confidence) 有用な相関ルールとして評価 8

4.2 相関ルールの評価基準 (3) 定義 3( 支持度 (support)) 全データベースに対して,X と Y を同時に含むトランザクションがどのくらいの割合を占めるかを表す. ここで n(x) は,X を含むトランザクションの個数を表す. 支持度が高いほど一般性の高いルールであると考えられる. 9

4.3 相関ルールの評価基準 (4) 例 3 表 1 でルール { お茶 } { 新聞 } の支持度を計算する. となり, 客の 50% が { お茶 } と { 新聞 } を同時に購入する. 10

4.3 相関ルールの評価基準 (5) 定義 4( 確信度 (confidence)) X を含むトランザクションに対して,X と Y を同時に含むトランザクションがどのくらいの割合を占めるかを表す. 注意 : n(i) ではない! 確信度が高いほど信頼性の高いルールであると考えられる. 11

4.3 相関ルールの評価基準 (6) 例 4 表 1 でルール { お茶 } { 新聞 }, ルール { 新聞 } { お茶 } の確信度を計算する. となり,{ お茶 } を買った人の67% が { 新聞 } を, { 新聞 } を買った人の100% が { お茶 } を購入する. 12

5.1 アプリオリアルゴリズム (1) 商品の POS データ ( 表 2) から, 購買パターンを抽出 商品が買われた場合を 1, 買われなかった場合を 0 とする. 13

5.1 アプリオリアルゴリズム (2) 1. i = 1 とする. アイテム 1 つずつを候補アイテム集合 C i ( ルールとして抽出される候補 ) と呼び, 全データベース D を検索して各候補アイテム集合 C i の出現回数をカウントし支持度を計算する. 2. 各候補アイテム集合 C i について, ユーザの定めた基準である最小支持度以上の支持度をもつものをラージアイテム集合 L i と呼ぶ. 3. ラージアイテム集合 L i 同士を組み合わせたものを新しく候補アイテム集合 C i+1 として出現回数をカウントし支持度を計算する. 4. i := i+1 とする. 候補アイテム集合 C i が空集合になった場合, 各パスにおけるラージアイテム集合を出力し, アルゴリズムを終了する. それ以外の場合,2. へ戻る. 14

5.1 アプリオリアルゴリズム (3) アイテム 1: お茶 2: 弁当 3: 新聞 4: 牛乳 5: コーヒー 15

5.2 アルゴリズムの例 ラージアイテム集合 L 2 が次の 3 つの場合, 候補アイテム集合 C 3 はそれぞれ次のようになる. L 2 = {{1,2}, {2,3}, {1,3}} の場合 候補アイテム集合 C 3 = {1,2,3} が導かれる L 2 = {{1,2}, {2,5}, {1,5}} の場合 候補アイテム集合 C 3 = {1,2,5} は導かれない L 2 = {{2,3}, {3,5}, {2,5}} の場合 候補アイテム集合 C 3 = {2,3,5} は導かれない 1つ前のラージアイテム集合に部分集合が全て出現する候補アイテム集合を抽出 16

5.3 出力結果の処理 (1) 定義 5 ルール L の抽出方法 ラージアイテム L i, i=1,2,3, から抽出される相関ルール L 1 からはルールが作られない L 2 ={a,b} からは [a b], [b a] の 2 つが抽出 L 3 ={a,b,c} からは [a b,c], [b a,c], [c a,b], [a,b c], [a,c b], [b,c a] の 6 つが抽出 17

5.3 出力結果の処理 (2) 例 5 ルール L の抽出方法 下図の L 2 の中のアイテム集合 {1,2} からは相関ルール [{1} {2}] と [{2} {1}] が作成される. 18

5.3 出力結果の処理 (3) ルール L の抽出方法 例 6 最小確信度 80% でルールを抽出すると となり, ルール [{1} {2}] が抽出される. > 最小確信度 < 最小確信度 19

6. 演習課題 以下のファイルを, 授業用 WEB ページより適当なディレクトリにダウンロードすること. apriori.cpp mushroom.txt zokusei.txt 授業用 WEB ページ http://lab.mgmt.waseda.ac.jp/unix/ 20

6.1 必須課題 (1) 1. 表 3 に示すデータベースからアプリオリを用いて, 最小支持度 50% でラージアイテム集合を計算 ( 手計算になる ) せよ. 21

6.1 必須課題 (2) 2. 1. で求めたラージアイテム集合から最小確信度 60% で相関ルールを抽出せよ. ただし, ラージアイテム集合から考えられる全てのパターンを相関ルールとする. 22

6.1 必須課題 (3) 3. アプリオリアルゴリズムのプログラムを用いて, キノコの種別データを解析せよ. ここで, 最小支持度 最小確信度は各自が定めるものとする. アイテムセットの中のアイテム数が多くなるように設定 最小支持度, 最小確信度の意味を考えること抽出された相関ルールについて, 授業用 WEB ページ上のリンクを参照にして, 考察せよ. ( 例 : 食用キノコ 毒キノコにはそれぞれどのような属性があるかなどを考察する ) 23

6.2 自由課題 必須ではないが自由課題の評価は必須課題の評価にプラスする. 自由課題を解かないためマイナスされることはない. 4. アプリオリアルゴリズムを改良しようと考えた以下の提案を評価しなさい. 候補アイテム集合 C からラージアイテム集合 L を導く時に, 支持度と確信度の両方で絞込みを行った方が効率の良いアルゴリズムにならないか? 24

6.3 レポート課題 課題 (1)~(4)( ただし,(4) は自由課題で任意 ) を行い, レポートにまとめて提出 期限 :12 月 22 日 ( 水 )12:00 場所 :51 号館 2 階レポート BOX 質問は, 後藤研究室 (51 号館 15 階 03 室 ) か, 下記メールアドレスまで comp_app_q@it.mgmt.waseda.ac.jp 25

7.1 ファイルの説明 (1) apriori.cpp ( アプリオリプログラム ) アプリオリのC 言語ソースプログラムである. コンパイルした後に実行する際, 以下の2つの.txt ファイルを同一のフォルダに入れておく必要がある. mushroom.txt( キノコの種別データ ) 今回解析対象となる, キノコの特徴が示されているデータである. データの内容については演習用の WEB ページで参照できる. ここではアイテムを1~128までの通し番号で表し, 結果についても番号で出力する. 26

7.1 ファイルの説明 (2) zokusei.txt( 属性値数データ ) キノコの種別データを解析する上で必要になる補助情報である. 特に気にする必要はないが, シミュレーションを実行するためには, このデータが必要となる. out.txt( 出力ファイル ) シミュレーションの結果が出力されるファイルである. 出力されたファイル自動的に作成され, シミュレーションを実行するたびに前に実行された結果は上書きされるため注意すること. 27

7.2 プログラムの実行方法 1. apriori.cpp,mushroom.txt,zokusei.txt を同じフォルダにダウンロード. 2. apriori.cpp のコンパイルを行い ( 警告文は無視してよい ), プログラムを実行する. $ g++ apriori.cpp -o apriori.out -lm $./apriori.out 3. apriori.cpp のコンパイルを行い ( 警告文は無視してよい ), プログラムを実行する. フォルダ内の出力ファイル out.txt に結果が出力されるため, ファイル内を参照する. $ emacs out.txt プログラムで入力する最小支持度, 最小確信度は, 値を変えることで結果が異なるため, 色々試してみるとよい. 28