共有辞書を用いた 効率の良い圧縮アルゴリズム

Similar documents
DEIM Forum 2013 C10-2 Re-Pair {k sekine, sasakawa, syoshid, 1999 Larsson Moffat Re-Pair Re-Pair Re-Pair

透過的データアクセスを実現する新しいデータ圧縮法

Microsoft PowerPoint - 画像工学 印刷用

スライド 1


スライド 1

BIT -2-

Wesley86.indd

01

リソース制約下における組込みソフトウェアの性能検証および最適化方法

Microsoft PowerPoint - アルデIII 10回目12月09日

福沢論文

Information Theory

1. はじめに 2

Microsoft PowerPoint - ARC-SWoPP2011OkaSlides.pptx

isai indd

コンピュータ応用・演習 情報処理システム

PowerPoint プレゼンテーション

エクセルシート自動分解システムPDFインストール操作マニュアル

Microsoft PowerPoint - yamagata.ppt

Oracle Advanced Compression:ディスクの節約とデータベースの高速化を可能にする包括的な圧縮機能

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

Operating System 仮想記憶

データ構造

<8D4C95F182C682AB322E312E696E6464>

OS

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

IPSJ SIG Technical Report Vol.2014-HPC-143 No /3/3 1 1 t-fpc 1 bit SCALE t-fpc TIME-SERIES DATA COMPRESSION METHOD FOR TIME EVOLUTION SIMULATION

スライド 1

EPSON エプソンプリンタ共通 取扱説明書 ネットワーク編

untitled

ありがとうございました

EPSON エプソンプリンタ共通 取扱説明書 ネットワーク編

公務員人件費のシミュレーション分析


橡hashik-f.PDF

198

ネットショップ・オーナー2 ユーザーマニュアル


1

新婚世帯家賃あらまし

05[ ]戸田(責)村.indd

/9/ ) 1) 1 2 2) 4) ) ) 2x + y 42x + y + 1) 4) : 6 = x 5) : x 2) x ) x 2 8x + 10 = 0

PowerPoint プレゼンテーション

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

Hadoop LZO圧縮機能の検証

第 3 回 Java 講座 今回の内容 今週の Java 講座はコレクション 拡張 for 文, ガベージコレクションについて扱う. 今週の Java 講座は一番内容が薄いも のになるだろう. コレクション コレクションとは大きさが決まっていない配列だと考えればよい. コレクションには List 先

実験 5 CGI プログラミング 1 目的 動的にWebページを作成する手法の一つであるCGIについてプログラミングを通じて基本的な仕組みを学ぶ 2 実験 実験 1 Webサーバの設定確認と起動 (1)/etc/httpd/conf にある httpd.conf ファイルの cgi-bin に関する

GJG160842_O.QXD

PowerPoint Presentation

プログラム圧縮による ソースコード流用の検出

Microsoft PowerPoint - ARC2009HashiguchiSlides.pptx

がん患者の終末期ケアにおける通所リハビリテーションの役割 介護保険によるがん終末期ケアの可能性

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

O(m) CPU 1 CPU Xeon LZEnd L1 1 L2 1.5 MiB 40 [10] CPU on-memory 2 2 LZEnd LZEnd 1 Xeon 5670 Xeon 5670 L1 data L2 LL Last Level 129 KiB 1

Microsoft PowerPoint - No6note.ppt

Microsoft Word 宗像データ圧縮(Word).doc

PowerPoint プレゼンテーション

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

Microsoft PowerPoint - mp11-06.pptx

目次 JAVIS Appli の基本機能... 3 JAVIS Appli について... 3 音声確認機能 JAVIS Appli( 有償版 ) の機能... 4 音声で読みの確認をする... 4 辞書機能... 5 単語を登録する... 5 単語を削除する... 6 音声コードの作成... 7

(Microsoft Word - 01PowerPoint\217\343\213\211C\203p\203^\201[\203\223\222m\216\257\225\\\216\206.doc)

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

Microsoft PowerPoint - os ppt [互換モード]

Microsoft PowerPoint - 5Chap15.ppt

2. CABAC CABAC CABAC 1 1 CABAC Figure 1 Overview of CABAC 2 DCT 2 0/ /1 CABAC [3] 3. 2 値化部 コンテキスト計算部 2 値算術符号化部 CABAC CABAC

help_ja

Microsoft PowerPoint - sp ppt [互換モード]

はじめに この資料は データデデュプリケーション機能を検討いただくにあたり ディスク使用率とバックアップパフォーマンスについて データデデュプリケーションデバイス ( 以降 DDD と記述 ) とファイルシステムデバイス ( 以降 FSD と記述 ) を比較した資料になります FSD は ローカルマ

改版履歴 Ver. 日付履歴 1.0 版 2014/5/30 新規作成 目次 0 はじめに 本文中の記号について Hyper-V 2.0 をインストールするための準備 インストール前に確認が必要なもの Hyper-V 2.0 の

<4D F736F F D F B835E82CC8D8291AC8F88979D82F08FAC8C5E82A982C288C089BF82C88D5C90AC82C AC82B782E996A78C8B8D878C5E836E815B C695C097F18F88979D82F091678D8782B982BD8C768E5A8B

高速バックボーンネットワークにおける公平性を考慮した階層化パケットスケジューリング方式

25 II :30 16:00 (1),. Do not open this problem booklet until the start of the examination is announced. (2) 3.. Answer the following 3 proble

COMPUTING THE LARGEST EMPTY RECTANGLE

PowerPoint プレゼンテーション

この方法では, 複数のアドレスが同じインデックスに対応づけられる可能性があるため, キャッシュラインのコピーと書き戻しが交互に起きる性のミスが発生する可能性がある. これを回避するために考案されたのが, 連想メモリアクセスができる形キャッシュである. この方式は, キャッシュに余裕がある限り主記憶の

Microsoft PowerPoint - os ppt [互換モード]

整理番号変換ツール 操作説明書 平成 20 年 11 月 厚生労働省保険局調査課

問題 1 次の文章は 作業環境について述べたものである を解答群 { } より選び その記号で答えよ にあてはまる適切なもの 設問 1. < 図 1>はルーラーの一部である 1に示されるインデントマーカーを移動することにより を設定することができる < 図 1> { ア. 1 行目のインデントイ.

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

(NICT) ( ) ( ) (NEC) ( )

D_kameyama_naka

プログラミング実習I

MS916 バッチ操作ガイド FW バージョン 0.52 向け バッチ操作の基本 MS916 のバッチ操作について バッチ操作では 読取ったバーコードデータはすべて 不揮発性のメモリ (1MB ROM JAN-13 約 50,000 件 ) に保存されます メモリに保存されたデータは任意のタイミング

個人依存開発から組織的開発への移行事例 ~ 要求モデル定義と開発プロセスの形式化 による高生産性 / 高信頼性化 ~ 三菱電機メカトロニクスソフトウエア ( 株 ) 和歌山支所岩橋正実 1

本書は INpMac v2.20(intime 5.2 INplc 3 Windows7/8/8.1に対応 ) の内容を元に記載しています Microsoft Windows Visual Studio は 米国 Microsoft Corporation の米国及びその他の国における登録商標です

本当はこわいエンコーディングの話 とみたまさひろ 東京 Ruby 会議 本当はこわいエンコーディングの話 Powered by Rabbit 2.0.6

情報処理Ⅰ

<4D F736F F D208D C8FEE95F18DEC90AC A B D836A B2E646F63>

Unite_Japan_2014_Technical_Session

RT Fontカタログ

計算機概論

EnSightのご紹介

フォーマット変換ツール 操作説明書 厚生労働省保険局調査課

Page1

(Taro-\202w\202x\202r\202k\202h\202c\202d\212T\227v.jtd)

Microsoft PowerPoint - Pro110111

Coding theorems for correlated sources with cooperative information

PowerPoint プレゼンテーション

はじめに 本書の目的 本書は JMA オンラインセミナー ( 以下 オンラインセミナー ) の受験者向け機能の使用方法を記述した操作説明書です システム推奨環境 オンラインセミナーを使用するユーザの PC 環境は 以下に示すスペックを満たしてい ることを推奨します ハードウェア CPU 2.33GH

Transcription:

大規模テキストに対する 共有辞書を用いた Re-Pair 圧縮法 Variable-to-Fixed-Length Encoding for Large Texts Using Re-Pair Algorithm with Efficient Shared Dictionaries 関根渓, 笹川裕人, 吉田諭史, 喜田拓也 北海道大学大学院情報科学研究科 1

背景 : 巨大なデータ 計算機上で扱うデータの巨大化. 動画 文章 容量が足りない 画像 音楽 時間がかかる 効率の良い圧縮手法の提案が望まれている. 2

背景 : 文法圧縮 近年, 文法圧縮に注目が集まっている. 入力テキストデータを一意に生成する文脈自由文法を構築し, その文法を符号化する圧縮手法. 良い圧縮率を達成出来る. 代表的な文法圧縮アルゴリズム Re-Pair [Larsson and Moffat 1999] SEQUITUR [Nevill-Manning et al. 1994] BPE [Gage 1994] 3

Re-Pair アルゴリズム 最頻出の 2-gram を新しい記号で置き換えていく. ENOOOBOEOOOBEEOOOB F OO ENFOBOEFOBEEFOB Dictionary 4

Re-Pair アルゴリズム 全ての 2-gram がユニークになったら変換終了 T: ENOOOBOEOOOBEEOOOB ENFOBOEFOBEEFOB 圧縮 ENABOEABEEAB ENCOECEEC ENCODED 解凍 Dictionary F OO A FO C AB D EC 可変長符号で符号化適当な2 進符号化 5

Re-Pair-VF [Yoshida & Kida 2013] 利点 固定長符号化を用いつつも, 十分によい圧縮率を達成.(gzip を超える ) 圧縮テキストが扱いやすい. 例 : 圧縮パターン検索が高速 欠点 メモリ消費が激しい.( 平均して入力テキストの 10~20 倍 ) 6

Re-Pair-VF アルゴリズム Text GB を超えるテキストには適用が難しい Re-Pair-VF Dictionary CompText 7

対策 : テキストのブロック化 テキストを分割 ( ブロック化 ) Text1 Text2 Original Text Text3 Text4 Re-Pair-VF 省メモリ化 Dic1 Dic2 Dic3 Dic4 Comp1 Comp2 Comp3 Comp4 出力される辞書の一部が同じエントリを持ってしまう. ( 予備実験では, 各ブロックで 30% 程度の 2-gram の重複を確認 ) 8

冗長部分を共有化したい 対策 : テキストのブロック化 テキストを分割 ( ブロック化 ) Text1 Text2 Original Text Text3 Text4 Re-Pair-VF 省メモリ化 Dic1 Dic2 Dic3 Dic4 Comp1 Comp2 Comp3 Comp4 出力される辞書の一部が同じエントリを持ってしまう. ( 予備実験では, 各ブロックで 30% 程度の 2-gram の重複を確認 ) 9

関連研究 Re-Merge [Wan & Moffat. 07] 各ブロックで Re-Pair を実行後, ブロック間で辞書のマージを行う. 圧縮率は良い ( 英文テキストにおいて 20% 弱 ) が時間がかかる. Blocked-Re-Pair-VF [Sekine, Sasakawa et al. DBS 12] 先頭ブロックのテキストから共有辞書を生成. 圧縮率を悪化させることなく省メモリ化に成功.

Blocked-Re-Pair-VF の問題点 Blocked-Re-Pair-VF [Sekine, Sasakawa et al. 2012] テキストの先頭が全体の文脈を内包していると仮定し, 先頭ブロックのテキストから共有辞書を生成. hoge.txt Bob laughed so hard that the salmon carpaccio came out of his nose. The department manager tried to tackle the Santa Claus while completely nak _ 人人人人人人 _ > 突然の DNA < Y^Y^Y^Y^Y GATA CTAAACCCTAAAACCCCTTTTTTGAT ACCCCAAATAGAAAAGGGTCCGTAA AAATCACCATAATGATACCTGATTTT Text1 Shared DIC Text2 Re-Pair-VF

Blocked-Re-Pair-VF の問題点 テキストの途中で大きく文脈が変わる場合, 圧縮率悪化の可能性 Blocked-Re-Pair-VF [Sekine, Sasakawa et al. 2012] テキストの先頭が全体の文脈を内包していると仮定し, 先頭ブロックのテキストから共有辞書を生成. hoge.txt Bob laughed so hard that the salmon carpaccio came out of his nose. The department manager tried to tackle the Santa Claus while completely nak _ 人人人人人人 _ > 突然の DNA < Y^Y^Y^Y^Y GATA CTAAACCCTAAAACCCCTTTTTTGAT ACCCCAAATAGAAAAGGGTCCGTAA AAATCACCATAATGATACCTGATTTT Text1 Shared DIC Text2 Re-Pair-VF 変則的なテキストにも柔軟に対応可能な圧縮アルゴリズムが必要

研究目的と主結果 目的 Blocked-Re-Pair-VF( 先頭ブロック法 ) に対し, 共有辞書の構築法を改良し, 圧縮パフォーマンスを調査する. 結果 改良アルゴリズムサンプル法を考案, 計算機実験によりその有用性を示した. 文脈が途中で変わるテキスト, および自然言語テキストに対して圧縮率が最大 4% 程度改善. bzip2 に匹敵する圧縮率 ( 約 30%) を達成. 13

サンプル法 : 共有辞書の作成フェイズ B Text1 Text2 Text3 Text4 c Sampling & Merge C Re-Pair-VF S Shared DIC

サンプル法 : 圧縮フェイズ Text1 Text2 Text3 Text4 Shared DIC Text1 Replace Text2 Text3 以下同様 Re-Pair-VF Local Dic1 Re-Pair-VF Local Dic2 Local Dic3 Re-Pair-VF Comp1 Comp2 Comp3 15

実験 1 目的 既存の圧縮手法とサンプル法の圧縮率を比較する. 比較手法 gzip bzip2 Lzma データ Pizza and Chili corpus から取得した,DNA データ,XML データ, および英文の自然言語テキストデータを繋ぎ合わせ,2GB としたものを用いた ( 構成は 25%,25%,50%). 16

Compression Ratio (%) 既存手法との比較 圧縮率 50% 40% 30% 20% 10% 0% 提案手法は bzip2 に匹敵する圧縮率 ( 約 30%) を達成. ( 符号語長 19bit, ブロックサイズ 128MB, 共有辞書の割合 3/8, サンプリングテキストサイズ 128MB) 17

実験 2 目的 変則的なテキストにおけるサンプル法の圧縮パフォーマンス ( 圧縮率, 圧縮時間 ) を調査する. 方法 サンプル法および旧手法において, 入力パラメータを変化させながら, 圧縮時間と圧縮率を計測し比較する. データ 実験 1 と同じ. 18

変則的なテキストにおける比較 圧縮率の比較 ( サンプリングテキストサイズ 128MB) ブロックサイズ符号語長 共有辞書の割合 サンプル法 先頭ブロック法 128 18 7/8 29.56% 35.95% 128 19 5/8 28.04% 30.20% 64 19 7/8 29.07% 34.03% 64 22 5/8 30.97% 33.50% 32 20 7/8 29.48% 33.16% ほぼ全てのパラメータの組み合わせで圧縮率の改善を確認出来た. 19

変則的なテキストにおける比較 圧縮時間の比較 ( サンプリングテキストサイズ 128MB) ブロックサイズ 符号語長 共有辞書の割合サンプル法先頭ブロック法 128 18 7/8 483.43 秒 411.12 秒 128 19 5/8 505.33 秒 459.41 秒 64 19 7/8 493.85 秒 428.60 秒 64 22 5/8 530.33 秒 493.83 秒 32 20 7/8 496.20 秒 443.74 秒 サンプル法の方が 5~10% 程度遅い 20

まとめ 結果 大規模テキストに対して,*VF 符号による圧縮を行うためのアルゴリズムである Blocked-Re-Pair-VF を改良した, サンプル法を提案. 共有辞書の改良によって圧縮速度が若干悪化したが, 圧縮率は 4~20% 程度改善された. bzip2 並の圧縮率を達成. 今後の展望 適切なパラメータの動的な決定法の考案. 共有辞書の作成方法の効率化. * 可変長の文字列に固定長の符号を割り当てる符号化方式 21