PowerPoint Presentation



Similar documents
KINGSOFT Office 2016 動 作 環 境 対 応 日 本 語 版 版 共 通 利 用 上 記 動 作 以 上 以 上 空 容 量 以 上 他 接 続 環 境 推 奨 必 要 2

養 老 保 険 の 減 額 払 済 保 険 への 変 更 1. 設 例 会 社 が 役 員 を 被 保 険 者 とし 死 亡 保 険 金 及 び 満 期 保 険 金 のいずれも 会 社 を 受 取 人 とする 養 老 保 険 に 加 入 してい る 場 合 を 解 説 します 資 金 繰 りの 都

Microsoft Word - 第3章.doc

(Microsoft Word - Excel\211\236\227p2\217\315.docx)

Box-Jenkinsの方法

Microsoft PowerPoint - OS10.pptx

<4D F736F F D20819C486F70658F6F93588ED297708AC7979D89E696CA837D836A B E A2E646F63>

平 成 26 年 4 月 から 産 前 産 後 休 業 中 に 申 出 をした 組 合 員 の 共 済 掛 金 が 免 除 されます ( 互 助 会 掛 金 は 免 除 されません) 1 制 度 の 概 要 次 世 代 育 成 支 援 の 観 点 から 産 前 産 後 休 業 ( )を 取 得 し

「1 所得税及び復興特別所得税の確定申告書データをお持ちの方」からの更正の請求書・修正申告書作成編

< C8EAE81698B4C93FC8FE382CC97AF88D38E968D CA8E86816A2E786C73>

表紙

総合評価点算定基準(簡易型建築・電気・管工事)

 

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

「給与・年金の方」からの確定申告書作成編

(1)1オールゼロ 記 録 ケース 厚 生 年 金 期 間 A B 及 びCに 係 る 旧 厚 生 年 金 保 険 法 の 老 齢 年 金 ( 以 下 旧 厚 老 という )の 受 給 者 に 時 効 特 例 法 施 行 後 厚 生 年 金 期 間 Dが 判 明 した Bは 事 業 所 記 号 が

3. 選 任 固 定 資 産 評 価 員 は 固 定 資 産 の 評 価 に 関 する 知 識 及 び 経 験 を 有 する 者 のうちから 市 町 村 長 が 当 該 市 町 村 の 議 会 の 同 意 を 得 て 選 任 する 二 以 上 の 市 町 村 の 長 は 当 該 市 町 村 の 議

任意整理について | 多重債務Q&A | 公益財団法人 日本クレジットカウンセリング協会

[2] 控 除 限 度 額 繰 越 欠 損 金 を 有 する 法 人 において 欠 損 金 発 生 事 業 年 度 の 翌 事 業 年 度 以 後 の 欠 損 金 の 繰 越 控 除 にあ たっては 平 成 27 年 度 税 制 改 正 により 次 ページ 以 降 で 解 説 する の 特 例 (

1

かんたんQR

. 負 担 調 整 措 置 8 (1) 宅 地 等 調 整 固 定 資 産 税 額 宅 地 に 係 る 固 定 資 産 税 額 は 当 該 年 度 分 の 固 定 資 産 税 額 が 前 年 度 課 税 標 準 額 又 は 比 準 課 税 標 準 額 に 当 該 年 度 分 の 価 格 ( 住 宅

の 基 礎 の 欄 にも 記 載 します ア 法 人 税 の 中 間 申 告 書 に 係 る 申 告 の 場 合 は 中 間 イ 法 人 税 の 確 定 申 告 書 ( 退 職 年 金 等 積 立 金 に 係 るものを 除 きます ) 又 は 連 結 確 定 申 告 書 に 係 る 申 告 の 場

平成21年4月1日作成

<95CA8E86315F8A6D92E8905C8D908F9182C98AD682B782E B8B4C985E8D8096DA2E786C7378>

地 方 税 法 第 72 条 の4 第 3 項 の 規 定 により 一 定 の 農 事 組 合 法 人 が 行 う 農 業 に 対 しては 事 業 税 が 非 課 税 とされています 埼 玉 県 では その 具 体 的 な 取 扱 いについて 以 下 のとおり 定 めましたので 事 業 税 の 申

税金読本(8-5)特定口座と確定申告

不 動 産 所 得 の 赤 字 < 土 地 等 の 取 得 の 負 債 利 子 なら 300 万 500 万 不 動 産 所 得 の 赤 字 300 万 のうち 利 子 分 の500 万 は 通 算 できない = 赤 字 分 の300 万 は 全 額 通 算 できないことになる = 損 益 通 算

購買ポータルサイトyOASIS簡易説明書 b

<4D F736F F F696E74202D C90BF8F CC8DEC90AC97E181698A4F8D E8816A5F56322E707074>

注 雇 促 進 税 制 と 本 制 度 のどちらかを 利 する 可 能 性 があるが あらかじめどちらの 制 度 を 利 するか 判 断 できない という 場 合 雇 促 進 税 制 の 事 前 届 出 ( 雇 促 進 計 画 の 提 出 )をした 上 で 申 告 の 際 にどちらを 利 するかご

Microsoft Word - 【第17期】有価証券報告書(課税上の取り扱い)

( 別 途 調 査 様 式 1) 減 損 損 失 を 認 識 するに 至 った 経 緯 等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列 固 定

特別徴収封入送付作業について

PowerPoint プレゼンテーション

年末調整

別記

SXF 仕 様 実 装 規 約 版 ( 幾 何 検 定 編 ) 新 旧 対 照 表 2013/3/26 文 言 変 更 p.12(1. 基 本 事 項 ) (5)SXF 入 出 力 バージョン Ver.2 形 式 と Ver.3.0 形 式 および Ver.3.1 形 式 の 入 出 力 機 能 を

1. 表 から 値 を 抽 出 する 説 明 1.1. 表 から 値 を 抽 出 するための 関 数 について 説 明 します LOOKUP VLOOKUP HLOOKUP 関 数 は 検 索 値 に 対 応 する 値 を 検 索 値 を 含 む 一 覧 表 から 抽 出 し てくれる 関 数 です

私立大学等研究設備整備費等補助金(私立大学等

H28記入説明書(納付金・調整金)8

第1回

MetaMoJi ClassRoom/ゼミナール 授業実施ガイド

概 要 説 明 書

説明会資料 JBA新会員登録システムでの登録作業

特 徴 差 分 点 検 レセ 楽 netの 点 検 方 式 は レセ 電 データを 使 用 した 差 分 点 検 です 前 回 点 検 分 と 比 較 して データ 内 容 と 記 録 順 が 異 なる 場 合 のみ 点 検 を 行 います 追 加 されたデータの 点 検 実 施 病 名 追 加 さ

10 期 末 現 在 の 資 本 金 等 の 額 次 に 掲 げる 法 人 の 区 分 ごとに それぞれに 定 める 金 額 を 記 載 します 連 結 申 告 法 人 以 外 の 法 人 ( に 掲 げる 法 人 を 除 きます ) 法 第 292 条 第 1 項 第 4 号 の5イに 定 める

( 別 紙 ) 以 下 法 とあるのは 改 正 法 第 5 条 の 規 定 による 改 正 後 の 健 康 保 険 法 を 指 す ( 施 行 期 日 は 平 成 28 年 4 月 1 日 ) 1. 標 準 報 酬 月 額 の 等 級 区 分 の 追 加 について 問 1 法 改 正 により 追 加

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

新 生産管理システム ご提案書 2002年10月15日 ムラテック情報システム株式会社

制 度 の 概 要 H 以 前 H 以 降 H 以 降 H 以 降 に よる 課 9.6% 7.2% 0.48% 0.2% % 0.48% 0.2% 4.3% 0.48% 0.2% 基 準 : 外 形 基 準

平 成 24 年 分 年 末 調 整 作 業 手 順 1. 書 類 の 確 認 年 末 調 整 を 行 なうにあたって 以 下 の 書 類 を 受 理 及 び 確 認 を 行 います 平 成 24 年 分 給 与 所 得 者 の 扶 養 控 除 等 ( 異 動 ) 申 告 書 平 成 24 年 分

測量士補 重要事項「写真地図作成」

   新潟市市税口座振替事務取扱要領

第1章 財務諸表

MapDK3のインストール

スライド 1

経 常 収 支 差 引 額 等 の 状 況 平 成 26 年 度 予 算 早 期 集 計 平 成 25 年 度 予 算 対 前 年 度 比 較 経 常 収 支 差 引 額 3,689 億 円 4,597 億 円 908 億 円 減 少 赤 字 組 合 数 1,114 組 合 1,180 組 合 66

(3) その 他 市 長 が 必 要 と 認 める 書 類 ( 補 助 金 の 交 付 決 定 ) 第 6 条 市 長 は 前 条 の 申 請 書 を 受 理 したときは 速 やかにその 内 容 を 審 査 し 補 助 金 を 交 付 すべきものと 認 めたときは 規 則 第 7 条 に 規 定 す

(3) 小 単 元 の 指 導 と 評 価 の 計 画 小 単 元 第 11 章 税 のあらまし の 指 導 と 評 価 の 計 画 ( 四 次 確 定 申 告 制 度 抜 粋 ) 関 心 意 欲 態 度 思 考 判 断 技 能 表 現 知 識 理 解 小 単 元 の 評 価 規 準 税 に 関 す

とする この 場 合 育 児 休 業 中 の 期 限 付 職 員 が 雇 用 契 約 を 更 新 するに 当 たり 引 き 続 き 育 児 休 業 を 希 望 する 場 合 には 更 新 された 雇 用 契 約 期 間 の 初 日 を 育 児 休 業 開 始 予 定 日 として 育 児 休 業 申

2016 年 度 情 報 リテラシー 三 科 目 合 計 の 算 出 関 数 を 用 いて 各 教 科 の 平 均 点 と 最 高 点 を 求 めることにする この2つの 計 算 は [ホーム]タブのコマ ンドにも 用 意 されているが 今 回 は 関 数 として 作 成 する まず 表 に 三 科

スライド 1

平成21年9月29日

(2) 広 島 国 際 学 院 大 学 ( 以 下 大 学 という ) (3) 広 島 国 際 学 院 大 学 自 動 車 短 期 大 学 部 ( 以 下 短 大 という ) (4) 広 島 国 際 学 院 高 等 学 校 ( 以 下 高 校 という ) ( 学 納 金 の 種 類 ) 第 3 条

スライド 1

目 次 1. Web メールのご 利 用 について Web メール 画 面 のフロー 図 Web メールへのアクセス ログイン 画 面 ログイン 後 (メール 一 覧 画 面 ) 画 面 共 通 項 目

4 承 認 コミュニティ 組 織 は 市 長 若 しくはその 委 任 を 受 けた 者 又 は 監 査 委 員 の 監 査 に 応 じなければ ならない ( 状 況 報 告 ) 第 7 条 承 認 コミュニティ 組 織 は 市 長 が 必 要 と 認 めるときは 交 付 金 事 業 の 遂 行 の

研究者情報データベース

1-1 建 築 物 等 保 守 管 理 業 務 業 務 の 実 施 方 針 本 業 務 の 実 施 方 針 等 について 記 載 してください なお 以 下 の 事 項 については 必 ず 記 載 して ください ( 施 設 維 持 管 理 業 務 全 体 で A4 判 180 枚 以 内 で 記

縦 計 横 計 をSUM 関 数 で 一 度 に 計 算 する 縦 横 の 合 計 を 表 示 するセルが 計 算 対 象 となる セルと 隣 接 している 場 合 は 一 度 に 合 計 を 求 め ることができます 1 計 算 対 象 となるセル 範 囲 と 合 計 を 表 示 する セル 範

第5回法人課税ディスカッショングループ 法D5-4

内 において 管 理 されている 上 場 株 式 等 のうち 非 課 税 管 理 勘 定 に 係 るもの( 新 規 投 資 額 で 毎 年 80 万 円 を 上 限 とします )に 係 る 配 当 等 で 未 成 年 者 口 座 に 非 課 税 管 理 勘 定 を 設 けた 日 から 同 日 の 属

の 購 入 費 又 は 賃 借 料 (2) 専 用 ポール 等 機 器 の 設 置 工 事 費 (3) ケーブル 設 置 工 事 費 (4) 防 犯 カメラの 設 置 を 示 す 看 板 等 の 設 置 費 (5) その 他 設 置 に 必 要 な 経 費 ( 補 助 金 の 額 ) 第 6 条 補

一 覧 表 ( 専 従 者 用 ) YES NOチャート( 専 従 月 額 単 価 用 ) (P.4)を 参 考 にしてください < 直 接 雇 用 者 > 一 覧 表 ( 専 従 者 用 )の 単 価 は 委 託 期 間 中 に 継 続 して 半 年 以 上 当 該 AMED 事 業

ていることから それに 先 行 する 形 で 下 請 業 者 についても 対 策 を 講 じることとしまし た 本 県 としましては それまでの 間 に 未 加 入 の 建 設 業 者 に 加 入 していただきますよう 28 年 4 月 から 実 施 することとしました 問 6 公 共 工 事 の

情 報 通 信 機 器 等 に 係 る 繰 越 税 額 控 除 限 度 超 過 額 の 計 算 上 控 除 される 金 額 に 関 する 明 細 書 ( 付 表 ) 政 党 等 寄 附 金 特 別 控 除 額 の 計 算 明 細 書 国 庫 補 助 金 等 の 総 収 入 金 額 不 算 入 に 関

単回帰モデル

< F2D824F C D9197A791E58A C938C8B9E>

コスト縮減を考慮した整備計画案について

工 事 名 渟 城 西 小 学 校 体 育 館 非 構 造 部 材 耐 震 改 修 工 事 ( 建 築 主 体 工 事 ) 入 札 スケジュール 手 続 等 期 間 期 日 期 限 等 手 続 きの 方 法 等 1 設 計 図 書 等 の 閲 覧 貸 出 平 成 28 年 2 月 23 日 ( 火

Taro-1-14A記載例.jtd

MapDK3のインストール

とする (1) 多 重 債 務 や 過 剰 債 務 を 抱 え 返 済 が 困 難 になっている 人 (2) 債 務 整 理 を 法 律 専 門 家 に 依 頼 した 直 後 や 債 務 整 理 途 上 の 人 (3) 収 入 よりも 生 活 費 が 多 くお 金 が 不 足 がちで 借 金 に 頼

給 与 所 得 者 の 住 民 税 は 特 別 徴 収 されますが 退 職 で 給 与 が 支 払 われなくなった 場 合 給 与 からの 天 引 きを することができなくなります この 場 合 特 別 徴 収 ができなくなる 残 額 について 普 通 徴 収 の 方 法 で 納 付 していた だく

[Q1] 復 興 特 別 所 得 税 の 源 泉 徴 収 はいつから 行 う 必 要 があるのですか 平 成 25 年 1 月 1 日 から 平 成 49 年 12 月 31 日 までの 間 に 生 ずる 所 得 について 源 泉 所 得 税 を 徴 収 する 際 復 興 特 別 所 得 税 を 併

大津市私立幼稚園就園奨励費補助金交付要綱

Taro-08国立大学法人宮崎大学授業

富士山チェックリスト

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

事 業 税 の 外 形 標 準 課 税 事 業 税 は 都 道 府 県 が 所 得 ( 利 益 )に 対 して 課 税 します 1. 個 人 事 業 税 業 種 区 分 税 率 ( 標 準 税 率 ) 第 1 種 事 業 ( 物 品 販 売 業 製 造 業 金 銭 貸 付 業 飲 食 店 業 不 動

text

Speed突破!Premium問題集 基本書サンプル

計算式の取り扱い

(5) 人 権 侵 害, 差 別 又 は 名 誉 毀 損 となるもの, 又 はおそれがあるもの (6) 他 人 を 誹 謗 し, 中 傷 し, 又 は 排 斥 するもの (7) 投 機 心, 射 幸 心 をあおるもの, 又 はそのおそれがあるもの (8) 内 容 が 虚 偽 誇 大 であるなど 過


スライド 1

Microsoft Word - H29年度実施要領

(15) 兵 庫 県 道 高 速 湾 岸 線 (16) 神 戸 市 道 高 速 道 路 2 号 線 (17) 兵 庫 県 道 高 速 北 神 戸 線 (18) 神 戸 市 道 高 速 道 路 北 神 戸 線 (19) 神 戸 市 道 高 速 道 路 湾 岸 線 のうち 上 り 線 については 神 戸

TIPS - 棚 割 りを 開 始 するまで Liteを 起 動 し 企 業 情 報 の 追 加 を 行 い 棚 割 を 行 う 企 業 の 追 加 をして 下 さい 企 業 情 報 の 追 加 時 に エラーメッセージが 表 示 された 場 合 別 途 TIPS トラブルが 発 生 した 場 合

Transcription:

データを 圧 縮 する 大 量 のデータを 小 さく 収 納 するには? 国 立 情 報 学 研 究 所 定 兼 邦 彦 0 年 月 日

データとは データ 圧 縮 とは 数 値 の 集 まり,.5, 00, 3.4, 意 味 のあるデータが 情 報 文 字, 画 像, 音 声, 動 画 など コンピュータ 中 では, 全 てのデータは0,の 列 で 表 される 圧 縮 とは ビット データを 表 現 する0, 列 の 長 さを 短 くすること 圧 縮 されたデータから 元 のデータを 求 めることを, 復 元, 伸 長, 復 号, 解 凍 などと 言 う

可 逆 圧 縮 完 全 に 元 に 戻 る 圧 縮 法 文 書,プログラムなど 非 可 逆 圧 縮 種 類 の 圧 縮 法 人 間 には 区 別 できない 程 度 の 違 いがある 画 像 (JPEG), 音 声 (mp3), 動 画 (MPEG) など 今 日 の 話 は 可 逆 圧 縮 のみ 3

本 の 検 索 人 が 検 索 するとき 本 の 索 引 を 使 う 索 引 に 載 っていない 単 語 は 見 つからない 計 算 機 で 検 索 するとき 本 の 索 引 のようなデータ 構 造 を 用 いる 索 引 の 見 出 しを 増 やせば,データ 量 ( 索 引 のページ 数 ) も 増 える 全 単 語 を 索 引 に 載 せると 本 のページ 数 が 倍 以 上 になる 4

NTCIR-4 PATENT ( 日 本 語 特 許 公 報 全 文 5 年 分 ) 文 書 数 3,496,5 索 引 の 例 サイズ 3.8G bzipでの 圧 縮 サイズ 5.G 従 来 の 索 引 ( 接 尾 辞 配 列 ) + データ 680.4G 簡 潔 データ 構 造 ( 索 引 +データ).6G 約 /30 に 圧 縮 5

簡 潔 データ 構 造 データに 索 引 を 追 加 しても,サイズが 増 えない (データも 圧 縮 できる) 圧 縮 されていない 索 引 を 用 いた 場 合 とほぼ 同 じ 速 度 で 検 索 ができる 6

データ 圧 縮 の 基 本 7

次 のデータは 何 を 表 しているでしょう? 000000000000000 000000000000 00000000000000000 00000000000000000 000 0 00 000 8D 9 国 00 0 00 0 97 A7 立 000 0 0 8F EE 情 00 00 000 95 F 報 000 00 0 0 8A 77 学 000 00 00 000 8C A4 研 000 0 000 00 8B 86 究 000 000 00 8F 8A 所 8

サクラサク データ 圧 縮 法 長 い 文 章 を 短 いものに 置 き 換 える 本 当 はビットで 良 い ( = 合 格, 0 = 不 合 格 ) 全 ての 圧 縮 法 はこれを 行 っている ビットだと, 種 類 の 文 章 しか 表 現 できない 特 定 の 文 章 だけでなく,どんな 文 章 でも 表 現 できる ようにするには? 9

プライバシー 保 護 のため この 画 像 の 自 動 ダウンロードをブロックしました モールス 符 号 ( 信 号 ) 830 年 代 に 提 案 短 点 と 長 点 - の 組 み 合 わせ 長 点 は 短 点 3つ 分 の 長 さ SOS = - - - 英 語 で 使 われる 頻 度 の 高 い e, t は 短 い 符 号, - になっている データ 圧 縮 文 字 符 号 文 字 符 号 A - N - B - O --- C - - P -- D - Q -- - E R - F - S G -- T - H U - I V - J --- W -- K - - X - - L - Y - -- M -- Z -- 0

次 の 符 号 は 何 を 表 しているでしょう? - -- ---- D X Y Z G O つの 文 字 を 表 す 符 号 がどこで 切 れているのか 分 からない 一 意 に 復 号 可 能 ではない モールス 符 号 では, 文 字 間 には 短 点 3つ 分 の 空 きを 入 れる - - - -- -- X Y Z D 文 字 符 号 文 字 符 号 A - N - B - O --- C - - P -- D - Q -- - E R - F - S G -- T - H U - I V - J --- W -- K - - X - - L - Y - -- M -- Z --

一 意 に 復 元 可 能 な 符 号 符 号 を 先 頭 から ( 左 から) 見 ていったときに, 通 り にしか 復 号 されない 符 号 モールス 符 号 では 空 白 を 入 れる 必 要 がある 一 意 ではない - 文 字 符 号 文 字 A - N - 符 号 B - O --- E - T C - - P -- D - Q -- - E R - I A N M F - S G -- T - H U - I V - H S U R W D - K G V F L P J B X C Y Z Q O J --- W -- K - - X - - L - Y - -- M -- Z --

コンピュータで 表 現 するには? モールス 符 号 には 短 点, 長 点, 空 白 の3 種 類 の 文 字 が 必 要 これらを 0, のビットで 表 現 する 必 要 がある 例 : 短 点 0 長 点 空 白 0 - - - -- -- X Y Z 0000000 3

各 文 字 の 符 号 の 最 後 に, 空 白 を 表 す0 をつけると 一 意 に 復 号 可 能 になる E: 0 0 I: 0 0 0 A: - 0 0 0 木 の 内 部 に 符 号 が 割 り 当 てられない I 0 0 E 0 0 A N T M O H S V F U L R P W J B D X C K Y Z G Q 4

どのような 符 号 が 良 いか ABCABCAABAACAABC を 圧 縮 する 場 合 符 号 : A 00 B 0 C 0 のとき 000000000000000000000000 8 + 4 + 4 = 3 ビット 符 号 : A 00 B C 0 のとき 00000000000000000000 8 + 4 + 4 = 8 ビット 符 号 3: A 0 B 0 C のとき 000000000000 8 + 4 + 4 = 4 ビット 0 0 0 A B C 0 0 A C B 0 0 5 A B C

符 号,,3の 中 で, 符 号 3が 一 番 小 さくなっている 多 く 現 れる 文 字 (A) の 符 号 が 短 いから A: 8 回, B: 4 回, C: 4 回 どのような 符 号 を 使 うと 一 番 圧 縮 できるか? 文 字 A, B, C の 符 号 の 長 さを x, y, z とする 文 字 列 の 符 号 の 長 さは L = 8x + 4y + 4z 一 意 に 復 号 できる 符 号 のみ 考 える + + を 満 たす 必 要 がある x y z (クラフトの 不 等 式 ) L が 最 小 になる x, y, z は? x =, y =, z = つまり 符 号 3が 最 適 6

エントロピー 文 字 列 中 の 文 字 c の 出 現 確 率 を p(c) とすると, 文 字 列 のエントロピーは 次 のように 定 義 される H = c A p c) log ( 文 字 A の 出 現 確 率 は 文 字 B, C の 出 現 確 率 は p( c) A: アルファベット ( 文 字 の 集 合 ) A = {A, B, C,,Z} 8 = 6 4 = 6 4 H = log = + + 4 + 4 log 4 4 = + 3 4 log 4 7

どんな 符 号 でも, 文 字 あたりの 平 均 ビット 数 は エントロピーよりも 小 さくならない 符 号 3の 文 字 あたりの 平 均 ビット 数 は エントロピーと 一 致 する H = log = + + 4 + 4 log 4 4 = Aの 符 号 長 Aの 出 現 確 率 + 3 4 log 4 4 = 6 3 で 8

ハフマン 符 号 (95 年 ) 平 均 符 号 長 が 最 小 の (= 最 も 圧 縮 できる) 符 号 作 り 方 出 現 頻 度 が 最 小 の 文 字 と, 番 目 に 少 ない 文 字 に 0 と を 割 り 当 てる それらの 文 字 を 合 わせて,つの 文 字 にする A: 8 回, B: 4 回, C: 4 回 のとき,Bに0, Cにを 割 り 当 てる 0 B C B と C を 合 わせて 文 字 D が 8 回 現 れたとみなす 文 字 が 種 類 になるまで 繰 り 返 す 9

A: 8 回, D: 8 回 なので,Aに0, Dにを 割 り 当 てる 0 A と D を 合 わせて 文 字 E が6 回 現 れたとみなす 終 了 A A D (E) 0 (D) 0 B C ハフマン 符 号 の 平 均 符 号 長 L は H L < H+ 0

データ 圧 縮 の 欠 点 は? 復 元 が 遅 い 一 部 分 だけ 復 元 することが 難 しい ABCABCAABAACAABC の0 文 字 目 は? 符 号 : A 00 B 0 C 0 のとき 0 = 0ビット 目 を 見 ればいい 0 3 0 0 0 0 000000000000000000000000 符 号 3: A 0 B 0 C のとき 何 ビット 目 を 見 ればいいか 分 からない 000000000000

符 号 のように 全 ての 文 字 が 同 じビット 数 の 符 号 を 固 定 長 の 符 号 と 呼 ぶ 文 字 はlog σビットで 表 現 される(σ:アルファベットサイズ) コンピュータで 扱 うデータは 固 定 長 の 符 号 で 表 現 されている ( 無 圧 縮 ) 符 号 3のように 可 変 長 の 符 号 を 使 うと 圧 縮 できるが 復 元 が 遅 くなる 先 頭 から 文 字 ずつ 復 元 していかなければならない 000000000000

部 分 復 号 の 高 速 化 ABCABCAABAACAABCの0 文 字 目 を 復 元 する 000000000000 途 中 から 復 元 するために, 符 号 の 開 始 位 置 を 記 憶 文 字 目 は ビット 目 から 6 文 字 目 は 9 ビット 目 から 文 字 目 は 6 ビット 目 から 6 文 字 目 は 3 ビット 目 から どの 文 字 を 復 元 する 場 合 でも, 最 大 5 文 字 復 元 すればいい 開 始 位 置 は 何 ビットで 記 憶 できる? A 0 B 0 C 3

開 始 位 置 の 記 憶 文 字 列 の 長 さを n とする (n = 6) アルファベットサイズ σ は n 以 下 とする 圧 縮 後 のサイズを m とする m n log σ n log n d 文 字 おきに 開 始 位 置 を 記 憶 する (d = 5) n/d 個 の 開 始 位 置 を 記 憶 する 個 の 開 始 位 置 は 何 ビットで 表 現 できるか 開 始 位 置 は から m の 整 数 log m ビットで 表 現 できる 4

全 ての 開 始 位 置 を 記 憶 するには nlog m d nlog ( nlog n) d = log n とすると, 開 始 位 置 は n ビット 以 下 で 記 憶 できる 文 字 あたり ビット 以 下 d n log n d ある 文 字 を 復 元 するために 必 要 な 時 間 は d に 比 例 する < ビット 必 要 d を 大 きくすると 圧 縮 率 が 良 くなるが 復 元 が 遅 くなる 5

開 始 位 置 の 圧 縮 d を 小 さくすると 文 字 の 復 元 は 早 くなるが, サイズが 大 きくなってしまう 開 始 位 置 をビット 列 で 表 現 する ABCABCAABAACAABC 000000000000 圧 縮 された 文 字 列 00000000000000000000 5 文 字 おきの 開 始 位 置 ビット 列 の 番 目 のの 位 置 () 文 字 目 番 目 のの 位 置 (9) 6 文 字 目 3 番 目 のの 位 置 (6) 文 字 目 4 番 目 のの 位 置 (3) 6 文 字 目 6

簡 潔 データ 構 造 7

ビットベクトル B: 長 さ n の 0, ベクトル B[0]B[] B[n ] 操 作 rank(b, x): B[0..x] = B[0]B[] B[x] 内 の の 数 select(b, i): B の 先 頭 から i 番 目 の の 位 置 (i ) select 操 作 で 開 始 位 置 が 求 まる select(b, ) = 文 字 目 の 開 始 位 置 select(b, ) = 9 6 文 字 目 の 開 始 位 置 select(b, 3) = 6 文 字 目 の 開 始 位 置 B = 00000000000000000000 n = 4 8

Selectの 求 め 方 B を, を log n 個 含 む 大 ブロックに 分 割 大 ブロックごとに 通 りのデータ 構 造 を 使 い 分 ける 大 ブロックの 長 さが log c n を 超 えるとき log n 個 のの 位 置 をそのまま 格 納 つの 大 ブロックで そのような 大 ブロックは 最 大 個 全 体 で n log c = 4 とすると c log n n log n 3 n log bits bits n log n = log n c log n 3 n bits 9

大 ブロックの 長 さ m が log c n 以 下 のとき 長 さ ½ log n の 小 ブロックに 分 割 小 ブロックを 葉 に 持 つ 完 全 log n 分 木 を 構 築 木 のノードには,その 子 孫 のベクトルのの 数 を 格 納 大 ブロック 内 の の 数 は log n 各 ノードの 値 は log log n bits 9 log n 3 4 O(c) 0 0 B = 000000000000000000 m log c n 30

B は 約 n ビット (n + o(n)) で 表 現 でき,rank と select は 答 えを 圧 縮 しないで 記 憶 した 場 合 と 同 じ 時 間 ( 定 数 時 間 ) で 計 算 できる これを 簡 潔 データ 構 造 と 呼 ぶ 3

順 序 木 の 簡 潔 データ 構 造 各 節 点 を 対 応 する 括 弧 のペアで 表 現 n 節 点 で n bits (サイズの 下 限 と 一 致 ) 既 存 手 法 は 複 雑 でサイズが 大 きい 6 3 4 5 7 8 BP 6 3 4 5 7 8 ((()()())(()())) 3

圧 縮 全 文 索 引 ライブラリ フリーソフトとして 公 開 http://researchmap.jp/sada/csalib/ NTCIR-4 PATENT ( 日 本 語 特 許 公 報 全 文 993-997) 文 書 数 3,496,5 サイズ (タグ 除 去, utf8) 3.8G bzipでの 圧 縮 サイズ 5.G 圧 縮 索 引 のサイズ.6G 従 来 の 索 引 ( 接 尾 辞 配 列 ) 680.4G 文 書 中 の 頻 出 パタンの 列 挙 36 秒 ( 文 字 列 長 の0.0% 以 上 の 頻 度 ) 出 力 例 [9988894586,99844534] key = 図 である [8935087764,89475903] key = ることを 特 徴 とする [8897875,8937686] key = することができる 33