Web スクレイピングを 用 いたネットパトロールの 効 率 化 福 地 彩 1, 鵜 川 義 弘 1 宮 城 教 育 大 学 大 学 院 生 活 系 専 修, 2 宮 城 教 育 大 学 情 報 処 理 センター 2 学 校 裏 サイトの 種 類 の 中 で 不 特 定 多 数 が 利 用 し 書



Similar documents
学校安全の推進に関する計画の取組事例

Taro-データ公安委員会相互協力事

(5 ) 当 該 指 定 居 宅 介 護 事 業 所 の 新 規 に 採 用 し た 全 て の 居 宅 介 護 従 業 者 に 対 し 熟 練 し た 居 宅 介 護 従 業 者 の 同 行 に よ る 研 修 を 実 施 し て い る こ と (6 ) 当 該 指 定 居 宅 介 護 事 業

頸 がん 予 防 措 置 の 実 施 の 推 進 のために 講 ずる 具 体 的 な 施 策 等 について 定 めることにより 子 宮 頸 がんの 確 実 な 予 防 を 図 ることを 目 的 とする ( 定 義 ) 第 二 条 この 法 律 において 子 宮 頸 がん 予 防 措 置 とは 子 宮

●幼児教育振興法案

調 査 結 果 トピック1: 性 年 代 別 利 用 率 の 利 用 率 は 男 女 ともに 各 年 代 で 大 きく 伸 長 している 2011 年 9 月 の 調 査 では の 年 代 別 利 用 率 は 男 女 とも が 最 も 高 く が 23.9% が 20.5%だったが 今 年 の 調

- 1 - 総 控 負 傷 疾 病 療 養 産 産 女 性 責 帰 べ 由 試 ~ 8 契 約 契 約 完 了 ほ 契 約 超 締 結 専 門 的 知 識 技 術 験 専 門 的 知 識 高 大 臣 専 門 的 知 識 高 専 門 的 知 識 締 結 契 約 満 歳 締 結 契 約 契 約 係 始

<4D F736F F D D3188C091538AC7979D8B4B92F F292B98CF092CA81698A94816A2E646F63>

東京事務所BCP【実施要領】溶け込み版

6 構 造 等 コンクリートブロック 造 平 屋 建 て4 戸 長 屋 16 棟 64 戸 建 築 年 1 戸 当 床 面 積 棟 数 住 戸 改 善 後 床 面 積 昭 和 42 年 36.00m m2 昭 和 43 年 36.50m m2 昭 和 44 年 36.

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

Microsoft Word - 佐野市生活排水処理構想(案).doc

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑

Microsoft Word - 全国エリアマネジメントネットワーク規約.docx

<947A957A8E9197BF C E786C73>

その 他 事 業 推 進 体 制 平 成 20 年 3 月 26 日 に 石 垣 島 国 営 土 地 改 良 事 業 推 進 協 議 会 を 設 立 し 事 業 を 推 進 ( 構 成 : 石 垣 市 石 垣 市 議 会 石 垣 島 土 地 改 良 区 石 垣 市 農 業 委 員 会 沖 縄 県 農

兵庫県公立学校教職員等財産形成貯蓄事務取扱細則

Taro-別紙1 パブコメ質問意見とその回答

スライド 1

する 婦 人 相 談 所 その 他 適 切 な 施 設 による 支 援 の 明 記 禁 止 命 令 等 をすることが できる 公 安 委 員 会 等 の 拡 大 等 の 措 置 が 講 じられたものである 第 2 改 正 法 の 概 要 1 電 子 メールを 送 信 する 行 為 の 規 制 ( 法

Microsoft Word - 19年度(行情)答申第081号.doc

<4D F736F F D203193FA8AD45F95CA8E86325F89898F4B315F94F093EF8AA98D AD97DF914F82CC8FEE95F182CC8EFB8F C28E8B89BB2E646F63>

ていることから それに 先 行 する 形 で 下 請 業 者 についても 対 策 を 講 じることとしまし た 本 県 としましては それまでの 間 に 未 加 入 の 建 設 業 者 に 加 入 していただきますよう 28 年 4 月 から 実 施 することとしました 問 6 公 共 工 事 の

Speed突破!Premium問題集 基本書サンプル

いう )は 警 告 をしたときは 速 やかに その 内 容 及 び 日 時 を 当 該 警 告 を 求 める 旨 の 申 出 をした 者 に 通 知 しなければならないこととされ また 警 告 をし なかったときは 速 やかに その 旨 及 び 理 由 を 当 該 警 告 を 求 める 旨 の 申

事 業 概 要 利 用 時 間 休 館 日 使 用 方 法 使 用 料 施 設 を 取 り 巻 く 状 況 や 課 題 < 松 山 駅 前 駐 輪 場 > JR 松 山 駅 を 利 用 する 人 の 自 転 車 原 付 を 収 容 する 施 設 として 設 置 され 有 料 駐 輪 場 の 利 用

私立大学等研究設備整備費等補助金(私立大学等

Ⅰ 元 請 負 人 を 社 会 保 険 等 加 入 建 設 業 者 に 限 定 平 成 28 年 10 月 1 日 以 降 に 入 札 公 告 指 名 通 知 随 意 契 約 のための 見 積 依 頼 を 行 う 工 事 から 以 下 に 定 める 届 出 の 義 務 ( 以 下 届 出 義 務 と

( 減 免 の 根 拠 等 ) 第 1 条 こ の 要 綱 は, 地 方 税 法 第 条 の 規 定 に 基 づ く 市 税 条 例 第 6 9 条 の 2 の 規 定 を 根 拠 と す る 身 体 障 害 者 等 に 対 す る 軽 自 動 車 税 の 減 免 の 具 体 的 な 対

Microsoft Word - 19年度(行個)答申第94号.doc

< F2D8ED089EF95DB8CAF939996A289C193FC91CE8DF42E6A7464>

1 変更の許可等(都市計画法第35条の2)

<4D F736F F F696E74202D2082C882E982D982C DD8ED88EE688F882CC82B582AD82DD C668DDA9770>

慶應義塾利益相反対処規程

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

Microsoft Word - nagekomi栃木県特定医療費(指定難病)支給認定申請手続きのご案内 - コピー

1 林 地 台 帳 整 備 マニュアル( 案 )について 林 地 台 帳 整 備 マニュアル( 案 )の 構 成 構 成 記 載 内 容 第 1 章 はじめに 本 マニュアルの 目 的 記 載 内 容 について 説 明 しています 第 2 章 第 3 章 第 4 章 第 5 章 第 6 章 林 地

高松市緊急輸送道路沿道建築物耐震改修等事業補助金交付要綱(案)

<4D F736F F D2091DE90458F8A93BE82C991CE82B782E98F5A96AF90C582CC93C195CA92A58EFB82CC8EE888F882AB B315D2E312E A2E646F63>

平成16年年金制度改正 ~年金の昔・今・未来を考える~

とする (1) 多 重 債 務 や 過 剰 債 務 を 抱 え 返 済 が 困 難 になっている 人 (2) 債 務 整 理 を 法 律 専 門 家 に 依 頼 した 直 後 や 債 務 整 理 途 上 の 人 (3) 収 入 よりも 生 活 費 が 多 くお 金 が 不 足 がちで 借 金 に 頼

教育資金管理約款

(1)1オールゼロ 記 録 ケース 厚 生 年 金 期 間 A B 及 びCに 係 る 旧 厚 生 年 金 保 険 法 の 老 齢 年 金 ( 以 下 旧 厚 老 という )の 受 給 者 に 時 効 特 例 法 施 行 後 厚 生 年 金 期 間 Dが 判 明 した Bは 事 業 所 記 号 が

平成17年度高知県県産材利用推進事業費補助金交付要綱

資料2-2 定時制課程・通信制課程高等学校の現状

Microsoft Word - 情報メディア利用ガイド2014

(2)大学・学部・研究科等の理念・目的が、大学構成員(教職員および学生)に周知され、社会に公表されているか

PowerPoint プレゼンテーション

学校法人日本医科大学利益相反マネジメント規程

代 議 員 会 決 議 内 容 についてお 知 らせします さる3 月 4 日 当 基 金 の 代 議 員 会 を 開 催 し 次 の 議 案 が 審 議 され 可 決 承 認 されました 第 1 号 議 案 : 財 政 再 計 算 について ( 概 要 ) 確 定 給 付 企 業 年 金 法 第

違 法 有 害 情 報 相 談 センターに 寄 せられている 相 談 について 1 概 要 違 法 有 害 情 報 相 談 センターは インターネット 上 の 違 法 有 害 情 報 に 対 し 適 切 な 対 応 を 促 進 する 目 的 で 個 人 の 他 人 権 擁 護 の 専 門 機 関 で

4 承 認 コミュニティ 組 織 は 市 長 若 しくはその 委 任 を 受 けた 者 又 は 監 査 委 員 の 監 査 に 応 じなければ ならない ( 状 況 報 告 ) 第 7 条 承 認 コミュニティ 組 織 は 市 長 が 必 要 と 認 めるときは 交 付 金 事 業 の 遂 行 の

4 乙 は 天 災 地 変 戦 争 暴 動 内 乱 法 令 の 制 定 改 廃 輸 送 機 関 の 事 故 その 他 の 不 可 抗 力 により 第 1 項 及 び 第 2 項 に 定 める 業 務 期 日 までに 第 1 条 第 3 項 の 適 合 書 を 交 付 することができない 場 合 は

< F2D32837A815B B EF68BC697BF96C68F9C>

PowerPoint プレゼンテーション

Microsoft Word - Active.doc

2 出 願 資 格 審 査 前 記 1の 出 願 資 格 (5) 又 は(6) により 出 願 を 希 望 する 者 には, 出 願 に 先 立 ち 出 願 資 格 審 査 を 行 いますので, 次 の 書 類 を 以 下 の 期 間 に 岡 山 大 学 大 学 院 自 然 科 学 研 究 科 等

Taro-契約条項(全部)

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

(5) 給 与 改 定 の 状 況 事 委 員 会 が 無 い た め 記 載 し て お り ま せ ん 1 月 例 給 事 委 員 会 の 勧 告 ( 参 考 ) 区 分 民 間 給 与 A 公 務 員 給 与 B 較 差 A - B 勧 告 ( 改 定 率 ) 給 与 改 定 率 国 の 改

疑わしい取引の参考事例

Gmail 利用者ガイド

<4D F736F F D2088C989EA8E738CF68BA48E7B90DD94928F915F8DC58F498D65>

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

社会保険加入促進計画に盛込むべき内容

第三十六号の二様式(第五条関係)(A4)

大田市固定資産台帳整備業務(プロポーザル審査要項)

平 成 27 年 11 月 ~ 平 成 28 年 4 月 に 公 開 の 対 象 となった 専 門 協 議 等 における 各 専 門 委 員 等 の 寄 附 金 契 約 金 等 の 受 取 状 況 審 査 ( 別 紙 ) 専 門 協 議 等 の 件 数 専 門 委 員 数 500 万 円 超 の 受

(3) 調 査 の 進 め 方 2 月 28 日 2 月 28 日 ~6 月 30 日 平 成 25 年 9 月 サウンディング 型 市 場 調 査 について 公 表 松 戸 市 から 基 本 的 な 土 地 情 報 サウンディングの 実 施 活 用 意 向 アイデアのある 民 間 事 業 者 と

1号店舗運用基準

これまでの 課 題 の 検 討 状 況 の 整 理 地 震 保 険 制 度 に 関 するプロジェクトチーム 報 告 書 ( 平 成 24 年 11 月 30 日 ) ( 附 属 物 の 損 害 査 定 ) 地 震 保 険 においては 迅 速 性 の 観 点 から 主 要 構 造 部 を 対 象 とし

する ( 評 定 の 時 期 ) 第 条 成 績 評 定 の 時 期 は 第 3 次 評 定 者 にあっては 完 成 検 査 及 び 部 分 引 渡 しに 伴 う 検 査 の 時 とし 第 次 評 定 者 及 び 第 次 評 定 者 にあっては 工 事 の 完 成 の 時 とする ( 成 績 評 定

0605調査用紙(公民)

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている

17 外 国 人 看 護 師 候 補 者 就 労 研 修 支 援 18 看 護 職 員 の 就 労 環 境 改 善 運 動 推 進 特 別 20 歯 科 医 療 安 全 管 理 体 制 推 進 特 別 21 在 宅 歯 科 医 療 連 携 室 整 備 22 地 域 災 害 拠 点 病

Taro-条文.jtd

様 式 5 平 成 28 年 度 NOSAI 夏 期 臨 床 実 習 事 前 アンケート * 申 込 をした 方 に を 付 けてください スタンダード 編 ステップアップ 編 氏 名 所 属 大 学 学 年 1. NOSAI 夏 期 臨 床 実 習 への 参 加 を 希 望 する 理 由 動 機

Microsoft Word - ★HP版平成27年度検査の結果

<8C9A90DD94AD90B696D88DDE939982CC8DC48E918CB989BB82C98AD682B782E98E9696B18EE688B CC FC90B3816A2E786477>

内 容 1. はじめに メールのログイン 初 めてのログイン メールの 受 信 / 送 信 メールの 受 信 メールの 作 成 と 送 信 メールの 新 規 作 成 メー

資料8(第2回水害WG)

(4) ラスパイレス 指 数 の 状 況 ( 各 年 4 月 1 日 現 在 ) ( 例 ) ( 例 ) 15 (H2) (H2) (H24) (H24) (H25.4.1) (H25.4.1) (H24) (H24)

Microsoft Word 第1章 定款.doc

Microsoft Word - 文書 3

佐渡市都市計画区域の見直し

(1) 社 会 保 険 等 未 加 入 建 設 業 者 の 確 認 方 法 等 受 注 者 から 提 出 される 施 工 体 制 台 帳 及 び 添 付 書 類 により 確 認 を 行 います (2) 違 反 した 受 注 者 へのペナルティー 違 反 した 受 注 者 に 対 しては 下 記 のペ

(2) 広 島 国 際 学 院 大 学 ( 以 下 大 学 という ) (3) 広 島 国 際 学 院 大 学 自 動 車 短 期 大 学 部 ( 以 下 短 大 という ) (4) 広 島 国 際 学 院 高 等 学 校 ( 以 下 高 校 という ) ( 学 納 金 の 種 類 ) 第 3 条

リング 不 能 な 将 来 減 算 一 時 差 異 に 係 る 繰 延 税 金 資 産 について 回 収 可 能 性 がないも のとする 原 則 的 な 取 扱 いに 対 して スケジューリング 不 能 な 将 来 減 算 一 時 差 異 を 回 収 できることを 反 証 できる 場 合 に 原 則

●電力自由化推進法案

川越市幼稚園就園奨励費補助金交付要綱

Taro-02 調査概要(280705).jtd

川崎市木造住宅耐震診断助成金交付要綱

別記

有 料 老 ホーム ( ) ( 主 として 要 介 護 状 態 にある を 入 居 させるも のに 限 る ) 第 29 条 ( 届 出 等 ) 第 二 十 九 条 有 料 老 ホーム( 老 を 入 居 させ 入 浴 排 せつ 若 しくは 食 事 の 介 護 食 事 の 提 供 又 はその 他 の


小 売 電 気 の 登 録 数 の 推 移 昨 年 8 月 の 前 登 録 申 請 の 受 付 開 始 以 降 小 売 電 気 の 登 録 申 請 は 着 実 に 増 加 しており これまでに310 件 を 登 録 (6 月 30 日 時 点 ) 本 年 4 月 の 全 面 自 由 化 以 降 申

< F2D819A8B638E968E9197BF82528E968BC68C7689E68F C>

WEBメールシステム 操作手順書

< F31332D8DE08C E8EE688B58B4B91A52E6A7464>

Transcription:

Web スクレイピングを 用 いたネットパトロールの 効 率 化 福 地 彩 1, 鵜 川 義 弘 1 宮 城 教 育 大 学 大 学 院 生 活 系 専 修, 2 宮 城 教 育 大 学 情 報 処 理 センター 2 学 校 裏 サイトの 種 類 の 中 で 不 特 定 多 数 が 利 用 し 書 き 込 み 頻 度 が 高 いインターネット 掲 示 板 は 大 量 の 書 き 込 みに 問 題 発 言 が 埋 もれてしまう 傾 向 があり 早 期 に 見 つけ 出 して 必 要 な 対 処 を 行 うことが 難 しい Web スクレイピング 技 術 と 迷 惑 メール 対 策 ソフトである POPFile を 用 いた 分 類 技 術 を 組 み 合 わせて 問 題 発 言 を 抽 出 することで いわゆるネットパトロール 事 業 の 一 部 に 協 力 しているので その 方 法 を 報 告 する キーワード : 学 校 裏 サイト, ネットパトロール, Web スクレイピング, POPFile 1. はじめに 携 帯 電 話 の 普 及 と 情 報 教 育 の 遅 れにより 児 童 生 徒 のネットワーク 上 でのトラブルが 問 題 と なっている 2008 年 4 月 の 文 科 省 の 調 べでは 学 校 裏 サイト( 学 校 の 公 式 ホームページ 以 外 で 情 報 が 書 き 込 まれている 電 子 掲 示 板 など)が 全 国 に 38,260 件 あるとの 調 査 [1] がある 宮 城 県 ネッ トパトロール 事 業 をしている 宮 城 県 教 育 研 修 セ ンターの 話 では 2010 年 1 月 現 在 で 宮 城 県 の 学 校 裏 サイトは 仙 台 市 を 除 く 856 校 について 14,069 件 見 つかっており 誹 謗 中 傷 法 規 違 反 プライバシーの 流 出 などのトラブルが 絶 えないと いう 特 に 不 特 定 多 数 が 利 用 するいわゆる 大 型 掲 示 板 では 誹 謗 中 傷 をはじめとする 問 題 発 言 は 1 日 に1 万 件 ほどもある 大 量 の 書 き 込 みに 埋 もれて しまい 人 手 によるネットパトロールでは 見 つけ 出 すのが 困 難 な 状 況 にある そこで Web スクレイピング 技 術 を 用 いて 問 題 発 言 を 抽 出 し それを 前 後 の 書 き 込 みとあわせ てメールとして 送 信 し 迷 惑 メール 対 策 ソフトで ある POPFile を 用 いて 分 類 することで 問 題 発 言 のみを 抽 出 した 結 果 をネットパトロール 担 当 者 に 提 供 することで その 事 業 への 支 援 とした 2. Web スクレイピングによる 書 き 込 みの 抽 出 2.1 Web スクレイピングとは Web スクレイピング(Web Scraping)とは Web ページから 個 人 が 必 要 とする 情 報 を 自 由 に 抽 出 できる 技 術 のことを 指 す 本 研 究 では Perl を 用 いてシステムを 構 築 したため Web スクレ イピングの 方 法 として Perl 用 モジュール Web:: Scraper[2] などのツールを 用 いて 抽 出 する 方 法 と 正 規 表 現 ( 文 字 列 の 特 徴 を 表 現 する UNIX 表 記 )によりマッチした 部 分 を 抽 出 する 方 法 とを 検 討 したが 監 視 対 象 である 掲 示 板 の 各 スレッ ド( 掲 示 板 などで 1 つの 話 題 に 属 する 複 数 の 書 き 込 みをまとめたもの)の HTML ソースの 構 造 が Web::Scraper での 抽 出 に 不 向 きであったため 正 規 表 現 により 書 き 込 みの 抽 出 を 行 なっている 2.2 監 視 対 象 今 回 監 視 対 象 とした 掲 示 板 は 以 下 の 4 つで ある 1. 宮 城 学 生 掲 示 板 2. 爆 サイ.com - 東 北 版 - 3. ホストラブ( 東 北 ) 4. 新 石 巻 の 高 校 掲 示 板 これらの 掲 示 板 は 宮 城 県 教 育 研 修 センターで - 13 -

Web スクレイピングを 用 いたネットパトロールの 効 率 化 これまで 実 際 に 目 視 で 監 視 を 行 っていたものであ る 2.3 書 き 込 みの 抽 出 作 成 したプログラムは 以 下 の 順 序 で 書 き 込 み の 抽 出 を 行 なっている ( i ) スレッド 一 覧 にアクセスし スレッド 番 号 を 取 得 (ii) 取 得 したスレッド 番 号 を 元 に 各 スレッド へ 移 動 (iii) 各 スレッドから 書 き 込 みデータを 取 得 (iv) 過 去 の 書 き 込 みデータと 比 較 し 差 分 を 取 り 新 規 書 き 込 みを 取 得 掲 示 板 では 通 常 新 しい 書 き 込 みが 行 われる と それが 明 確 に 分 かるように スレッド 一 覧 ペー ジ( 図 1)の 最 上 位 にスレッドが 表 示 される そ のため スレッド 一 覧 の TOP ページを 見 れば 新 着 書 き 込 みがあったスレッドを 把 握 することが できる 各 スレッドにアクセスすると 新 しい 書 き 込 み 内 容 が 一 覧 として 表 示 されるようになっている ( 図 2) このページのソースから 正 規 表 現 により 書 き 込 み 番 号 書 き 込 み 日 時 書 き 込 み 者 名 書 き 込 み 内 容 を 抽 出 し データとして 保 存 している ( 図 3) このデータは スレッドの 書 き 込 みを 全 て 抽 出 し たものであるため どれが 新 着 書 き 込 みかを 判 断 することができない そのため 新 しくデータ を 保 存 したとき 直 前 に 保 存 したものと 比 較 を 行 い 差 分 を 取 ることで 直 前 のものに 載 っていな いデータが 新 着 書 き 込 みであるとの 判 断 を 行 って いる 図 2 スレッドの 書 き 込 み 一 覧 図 1 ホストラブ( 東 北 )のスレッド 一 覧 ページ 大 抵 の 掲 示 板 では 各 スレッドにはスレッド 番 号 を 持 っており URL 内 にその 番 号 を 記 述 する ことで そのスレッドにアクセスできるように なっている なお 前 述 した 4 つのサイトは 全 てスレッド 番 号 を 有 していた 図 3 プログラムによる 書 き 込 みの 抽 出 - 14 -

宮 城 教 育 大 学 情 報 処 理 センター 研 究 紀 要 第 17 号 (2010) 書 き 込 まれた 内 容 が 問 題 あるものかそうでな いかを 判 断 するためには データを 書 き 込 みごと に 分 割 する 必 要 がある そこで プログラムの 最 後 の 処 理 として 新 着 情 報 を 書 き 込 みごとに 分 割 し 最 終 的 にメールの 形 にして 書 き 込 み 情 報 を 後 述 する Gmail に 転 送 している 2.4 Gmail の 利 用 Gmail は Web 検 索 大 手 の Google が 提 供 する 無 料 の WebMail である その 検 索 機 能 は Web の 検 索 で 想 像 がつくとおり 秀 逸 であり かつ IMAP サーバとしての 利 用 も 可 能 である 筆 者 らは 掲 示 板 に 書 き 込 まれた 記 事 を Gmail に 転 送 するこ とで 掲 示 板 記 事 の 保 存 の 受 け 皿 とし これを 県 の 職 員 とメールフォルダーの 検 索 を 含 めて 共 有 す ることとした ただ 1 日 1 万 通 を 超 えるメール の 転 送 は Gmail でさえ 迷 惑 メール 送 信 サイトと して 扱 われたため 一 旦 学 内 のサーバに 蓄 積 した のち Gmail の POP を 使 用 したメッセージの 確 認 機 能 を 用 いることで Gmail 側 から 取 得 さ せるようにした としての 利 用 に 限 定 され spam と ham とに 分 類 することしかできない しかし 本 研 究 で 採 用 した POPFile は バケツと 呼 ばれる 分 類 ジャン ルを 自 由 に 複 数 設 定 することができるため 迷 惑 メール 対 策 以 外 の 用 途 にも 利 用 可 能 である 3.2 POPFile の 設 定 POPFile は 通 常 では POP のプロキシとしての 利 用 が 想 定 されているが ベータテスト 版 として IMAP での 利 用 もできるようになっている 今 回 は Gmail に 蓄 積 されているメールを 分 類 す るため POP ではなく IMAP での 設 定 を 行 った 設 定 は 詳 細 設 定 タブで imap_enabled に 値 1 を 入 力 し IMAP サーバに 関 する 設 定 に Gmail アカウントに 関 する 情 報 を 入 力 する ま た POPFile では バケツ と 呼 ばれる 分 類 のジャ ンルを 専 用 の Web インターフェースにて 作 成 す ることができる 今 回 は まだ 実 験 段 階 というこ ともあり 分 類 のジャンルとして 監 視 を 必 要 と する 書 き 込 みであることを 表 す watch 問 題 のない 書 き 込 みを 表 す trash を 作 成 した ( 図 4) 3. POPFile による 書 き 込 みの 分 類 3.1. POPFile とは 前 節 で 最 終 的 に 書 き 込 みをメールとしたのは POPFile[3] を 用 いて 書 き 込 みを 分 類 するためで ある POPFile は ベイジアンフィルタを 持 つ 自 動 メール 分 類 ソフトウェアで 元 々は 迷 惑 メー ル 対 策 として 開 発 された ベイジアンフィルタと はベイズ 推 定 を 用 いたフィルタのことで メール の 分 類 を 学 習 させることにより 将 来 的 に 自 動 で 分 類 が 判 定 されるようになる 単 語 の 発 生 頻 度 から 分 類 先 を 判 定 しているため 学 習 量 が 増 えるとそ の 分 だけ 分 類 の 精 度 も 上 がるという 特 徴 を 持 つ 会 員 数 1500 万 人 を 有 する DeNA の Web サービ ス モバゲータウン でもこのベイジアンフィル タの 技 術 を 用 いて 書 き 込 みのチェックを 行 ってい る ベイジアンフィルタを 持 つメール 分 類 ソフト ウェアは 複 数 存 在 するが 多 くは 迷 惑 メール 対 策 図 4 POPFile ジャンルの 設 定 画 面 3.3 POPFile による 書 き 込 みの 分 類 POPFile はコーパスと 呼 ばれる 単 語 データを 元 に 分 類 を 判 定 するが インストール 直 後 はその コーパスを 持 たないため 手 動 で 分 類 を 行 うこと で 学 習 をさせ コーパスのデータを 充 実 させる 必 - 15 -

Web スクレイピングを 用 いたネットパトロールの 効 率 化 要 がある 学 習 は POP 経 由 の 場 合 には Web イ ンターフェース( 図 5)で 行 うが IMAP では Thunderbird など 通 常 のメールソフトを 使 っ て 行 う( 図 6) 的 に watch に 分 類 されたメールだけをチェッ クすることで 注 意 すべき 書 き 込 みを 監 視 するこ とが 可 能 になる 実 際 に 使 用 してみると 分 類 精 度 を 上 げるには 1 件 の 書 き 込 みにある 程 度 特 徴 的 な 単 語 が 入 って いることが 必 要 であることがわかったため Web スクレイピング 時 には 更 新 部 分 の1または 数 行 だけでなく 掲 示 板 のほぼ 1 ページに 相 当 する スレッドごと 収 集 するようにした 4. 今 後 の 課 題 図 5 POPFile の 学 習 (Web 画 面 ) 大 量 の 書 き 込 みの 中 から 問 題 となる 書 き 込 みを 見 つけ 出 す 方 法 は 提 供 できたものの 最 も 重 要 で 緊 急 を 要 する 自 殺 自 傷 系 の 発 言 については こ れまで 開 発 したシステムでは 見 付 け 出 すことがで きない それは 自 殺 自 傷 の 発 言 が 児 童 生 徒 のブログやリアル(ブログよりも 頻 繁 に 書 き 込 ま れる 日 記 的 記 載 )にあり それらは 今 回 のシス テムで 行 ったいわゆる 定 点 観 測 による 方 法 ではな く 前 略 プロフィールを 起 点 とするリンクから 派 生 する 深 いリンクをめぐる Web Crowling 技 術 を 使 わなければ 見 つからないからである 児 童 生 徒 の 命 がかかる 問 題 に 対 して 情 報 と 教 育 分 野 にた ずさわる 者 として 早 急 に 対 応 しなければならな い 大 変 重 要 な 課 題 である 図 6 POPFile の 学 習 (Tunderbird の 場 合 ) 具 体 的 には 未 分 類 unclassified の 場 合 受 信 トレイに 溜 まっている 状 態 なので 掲 示 板 の 書 き 込 みの 内 容 により watch または trash に 移 動 することにより 学 習 されコーパスが 作 られ ていく 徐 々にそれをもとに 分 類 の 判 定 が 行 われ watch または trash に 自 動 で 分 類 されてい くようになる もし その 判 定 が 誤 っている 場 合 は 正 しい 行 き 先 フォルダーに 手 作 業 で 分 類 する ことで 再 学 習 が 行 われる 分 類 精 度 が 上 がれば 再 学 習 の 頻 度 は 少 なくなり POPFile によって 自 動 [1] 文 部 科 学 省 調 査 青 少 年 が 利 用 す る 学 校 非 公 式 サ イ ト http://www.mext.go.jp/ b_menu/houdou/20/04/08041805/001. htm (2010 年 1 月 14 日 アクセス ) [2] Web::Scraper http://search.cpan.org/~miyagawa/web- Scraper-0.32/lib/Web/Scraper.pm (2010 年 1 月 14 日 アクセス ) [3] POPFile http://getpopfile.org/docs/jp (2010 年 1 月 14 日 アクセス ) - 16 -