OpenCms Office ファイル 変 換 マニュアル 株 式 会 社 ジークス (2010 年 10 月 25 日 更 新 )
目 次 1 Office ファイル 変 換 について...3 1-1 Office ファイル 変 換 とは... 3 1-2 ライブラリ 構 成... 3 1-3 利 用 上 の 注 意... 4 1-4 サポートしているフォーマット... 5 2 OpenOffice.org のインストール...6 3 操 作 方 法...8 3-1 ファイルをアップロード 中 に 変 換 する... 8 3-2 OpenCms に 登 録 済 みのファイルを 変 換 する... 11 4 xpdf のインストール...13 4-1 サーバーが Linux の 場 合... 13 4-2 サーバーが Windows の 場 合... 15 5 設 定 ファイル...19 2
1 Office ファイル 変 換 について 1-1 Office ファイル 変 換 とは Office ファイル 変 換 は Word や Excel PowerPoint などのバイナリファイルを HTML や PDF SWF といった 別 のフォーマットに 変 換 する 機 能 です また HTML や XHTML に 変 換 する 場 合 は OpenCms のテンプレートを 適 用 した HTML に 変 換 す る 事 が 可 能 です つまり Word を HTML に 変 換 した 場 合 ヘッダーやフッターはサイト 共 通 のものが 適 用 されます さらに 本 文 には Word の 文 章 の 内 容 がセットされ FCKEditor などの WYSIWYG エ ディタで 編 集 する 事 も 可 能 になります また 通 常 であれば Word を HTML に 変 換 すると 通 常 不 要 なタグが 大 量 に 生 成 されますが HTML のクリーンアップ 機 能 により それらは 全 て 除 去 されます そのほか ZIP ファイルで 圧 縮 して 複 数 のファイルを 一 度 に 登 録 変 換 する 事 が 出 来 ます ( ただし アップロード JAVA アプレット 使 用 時 の 変 換 には 対 応 していません ) 1-2 ライブラリ 構 成 フォーマットの 変 換 処 理 には OpenOffice.org(+JODConverter)を 利 用 しています よって 対 応 する 拡 張 子 の 種 類 や その 変 換 精 度 は OpenOffice.org に 依 存 し また OpenOffice.org のバージョンアップと 共 にその 性 能 も 向 上 します そして 当 然 のことながら OpenCms 単 体 ではこの 機 能 は 利 用 できません 利 用 するには OpenCms がインストールされているサーバー 上 に OpenOffice.org をインストールし サービスを 立 ち 上 げてお く 必 要 があります OpenOffice.org のホームページ http://www.openoffice.org/ 3
1-3 利 用 上 の 注 意 PDF などの 表 現 力 の 高 いフォーマットへは 比 較 的 問 題 なく 変 換 されますが HTML などの 表 現 力 の 低 いフォーマットへの 変 換 精 度 は あまり 期 待 しないほうが 良 いでしょう HTML 変 換 を 利 用 した 運 用 を 想 定 する 場 合 は 最 低 以 下 の 事 が 了 解 できる 必 要 があります Word 等 の 変 換 元 となるファイルのレイアウトは 固 定 とし 自 由 に 入 力 出 来 ない 変 換 後 HTML エディタで 毎 回 確 認 訂 正 する 事 になる HTML へ 変 換 したページがそのまま 利 用 できる 事 は 稀 であり 必 ず HTML エディタで 修 正 を 入 れる 事 になるので それを 覚 悟 する 必 要 があります また PDF や SWF に 変 換 する 場 合 これらのレイアウトが 崩 れたとしても OpenCms 上 では PDF や SWF を 編 集 する 機 能 が 無 い 為 変 換 元 ファイルを 修 正 する 事 になります また PDF に 変 換 する 場 合 OpenOffice.org がインストールされているサーバーに 変 換 元 の Office ファイルで 利 用 されているフォントがインストールされていなければ 文 字 化 けが 発 生 します 特 に Windows ではなく Linux 環 境 にインストールする 場 合 などは 注 意 して 下 さい 4
1-4 サポートしているフォーマット サポートしているフォーマットの 種 類 と 変 換 可 能 な 組 み 合 わせは 以 下 の 通 りです ( OpenOffice.org バージョン 3.1 で 動 作 させた 場 合 ) 種 類 フォーマット( 変 換 元 ) フォーマット( 変 換 先 ) OpenDocument Text (*.odt) Portable Document Format (*.pdf) OpenOffice.org 1.0 Text (*.sxw) OpenDocument Text (*.odt) Rich Text Format (*.rtf) OpenOffice.org 1.0 Text (*.sxw) テキスト 系 Microsoft Word (*.doc, *.docx) WordPerfect (*.wpd) Rich Text Format (*.rtf) Microsoft Word (*.doc, *.docx) Plain Text (*.txt) Plain Text (*.txt) HTML (*.html) HTML (*.html) MediaWiki wikitext (*.wiki) OpenDocument Spreadsheet (*.ods) Portable Document Format (*.pdf) Microsoft Excel (*.xls, *.xlsx) OpenDocument Spreadsheet (*.ods) OpenOffice.org 1.0 Spreadsheet OpenOffice.org 1.0 Spreadsheet スプレッドシート 系 (*.sxc) Comma-Separated Values (*.csv) (*.sxc) Microsoft Excel (*.xls, *.xlsx) Tab-Separated Values (*.tsv) Comma-Separated Values (*.csv) Tab-Separated Values (*.tsv) HTML (*.html) OpenDocument Presentation (*.odp) Portable Document Format (*.pdf) OpenOffice.org 1.0 Presentation OpenOffice.org 1.0 Presentation (*.sxi) (*.sxi) プレゼンテーション 系 Microsoft PowerPoint (*.ppt, *.pptx) OpenDocument Presentation (*.odp) Macromedia Flash (*.swf) Microsoft PowerPoint (*.ppt, *.pptx) HTML (*.html) ドロー 系 OpenDocument Drawing (*.odg) Scalable Vector Graphics (*.svg) Macromedia Flash (*.swf) また xpdf 系 のモジュールがインストールされていれば PDF をテキストや HTML に 変 換 できます PDF Portable Document Format (*.pdf) Plain Text (*.txt) HTML (*.html) 5
2 OpenOffice.org のインストール OpenOffice.org のサイトから OpenOffice.org をダウンロードし インストールして 下 さい Windows 環 境 であれば インストーラーが 付 いているので 簡 単 にインストールできると 思 います インストールが 完 了 したら ポート 8100 で サーバーとして 立 ち 上 げなければなりません Linux 環 境 であれば 以 下 のようなオプションをつけて OpenOffice.org を 起 動 します soffice -headless -accept="socket,port=8100;urp;" Windows 環 境 も 同 様 に オプションを 付 与 して 起 動 します デスクトップに OpenOffice.org の 起 動 アイコンがある 場 合 は 以 下 のようにします まず アイコンを 右 クリックし プロパティを 開 きます 6
リンク 先 に soffice.exe のパスが 記 述 されているので この 後 ろにオプションを 付 与 します この 設 定 で 保 存 し このショートカットアイコンをダブルクリックして 起 動 すると OpenCms から 利 用 可 能 になります 7
3 操 作 方 法 Office ファイル 変 換 には アップロード 中 に 変 換 する 方 法 と 既 に OpenCms に 登 録 された Office ファイルを 後 から 変 換 する 方 法 の2 種 類 があります 3-1 ファイルをアップロード 中 に 変 換 する アップロード 中 に 変 換 する 方 法 は 以 下 の 通 りです 1アップロードしたいディレクトリに 移 動 し 2 新 規 ボタンをクリックします 次 に 3 Office ファイルをアップロード をチェックし 4 次 へ>> ボタンをクリックします 8
ファイルのアップロード 画 面 が 表 示 されるので 5 参 照 ボタンでアップロードする Office ファイル を 選 択 して 下 さい 6 変 換 後 の 名 前 欄 に 変 換 後 の 名 前 を 指 定 して 下 さい ここで 指 定 する 拡 張 子 は 重 要 で 指 定 した 拡 張 子 のフォーマットへ 変 換 されます 名 前 を 入 力 せず 拡 張 子 だけ 入 力 した 場 合 は 同 じファイル 名 で 拡 張 子 のみ 違 うファイルに 変 換 されます OpenOffice.org が 変 換 可 能 な 拡 張 子 を 指 定 しなければなりませんので 本 資 料 の 1-4 サポートして いるフォーマット をよく 確 認 して 下 さい また 7 変 換 テーブルを 表 示 リンクをクリックすると 1-4 サポートしているフォーマット と 同 じ 表 が 表 示 され 確 認 する 事 が 出 来 ます 入 力 が 終 わったら 8 次 へ>> ボタンをクリックして 下 さい ( 巨 大 なファイルだと アップロードと 変 換 に 時 間 がかかる 場 合 があります ) もし OpenOffice.org が 変 換 できないフォーマットの 組 み 合 わせが 指 定 された 場 合 は 以 下 のような unsupported conversion: ~ というエラーが 表 示 されます 9
もし html や xhtml に 変 換 する 場 合 は 9テンプレートと 10ボディーを 次 からコピーもプルダウン から 選 択 して 下 さい 指 定 したテンプレートが 適 用 され xmlpage のリソースに 変 換 されます 尚 変 換 されるのは xmlpage のみで 構 造 化 コンテンツ(xmlcontent)への 変 換 は 出 来 ません また アップロードした Office ファイルの 本 文 は デフォルトでは body という 名 前 のエレメントに 登 録 されます ただし 選 択 した JSP テンプレートの template-elements プロパティにエレメント 名 が 指 定 されていれば その 一 番 最 初 のエレメントに 本 文 が 登 録 されます 登 録 されるエレメントは 一 箇 所 のみです 一 つの Office ファイルの 内 容 を 分 割 して 別 々のエレメント に 登 録 するような 事 は 出 来 ません 複 数 の Office ファイルを ZIP に 圧 縮 してアップロードする 場 合 は その ZIP ファイルを 選 択 し 11ファイル 解 凍 チェックボックスにチェックを 入 れてから 8 次 へ>> ボタンをクリックして 下 さい ZIP でのアップロードの 場 合 6 変 換 後 の 名 前 欄 には 拡 張 子 のみ 入 力 して 下 さい 名 前 まで 入 力 したとしても 無 視 され 拡 張 子 のみが 指 定 された 場 合 と 同 様 の 動 作 をします 10
3-2 OpenCms に 登 録 済 みのファイルを 変 換 する 登 録 済 みのファイルを 変 換 する 方 法 は 以 下 の 通 りです 変 換 したいバイナリデータを 右 クリックし 1 拡 張 2 Office ファイル 変 換 とクリックし ます 11
3 次 にコピー 欄 に 変 換 後 のファイルのパスとファイル 名 を 指 定 します 指 定 方 法 はリソースのコピーの 時 と 同 様 ですが ここで 指 定 する 拡 張 子 は 重 要 で 指 定 した 拡 張 子 のフ ォーマットへ 変 換 されます 拡 張 子 だけ 入 力 した 場 合 は エラーとなります OpenOffice.org が 変 換 可 能 な 拡 張 子 を 指 定 しなければなりませんので 本 資 料 の 1-4 サポートして いるフォーマット をよく 確 認 して 下 さい また 6 変 換 テーブルを 表 示 リンクをクリックすると 1-4 サポートしているフォーマット と 同 じ 表 が 表 示 され 確 認 する 事 が 出 来 ます 入 力 が 終 わったら 7 OK ボタンをクリックして 下 さい ( 巨 大 なファイルだと アップロードと 変 換 に 時 間 がかかる 場 合 があります ) もし html や xhtml に 変 換 する 場 合 は 4テンプレートと 5ボディーを 次 からコピーもプルダウン から 選 択 して 下 さい 指 定 したテンプレートが 適 用 され xmlpage のリソースに 変 換 されます 尚 変 換 されるのは xmlpage のみで 構 造 化 コンテンツ(xmlcontent)への 変 換 は 出 来 ません また アップロードした Office ファイルの 本 文 は デフォルトでは body という 名 前 のエレメントに 登 録 されます ただし 選 択 した JSP テンプレートの template-elements プロパティにエレメント 名 が 指 定 されていれば その 一 番 最 初 のエレメントに 本 文 が 登 録 されます 登 録 されるエレメントは 一 箇 所 のみです 一 つの Office ファイルの 内 容 を 分 割 して 別 々のエレメント に 登 録 するような 事 は 出 来 ません 12
4 xpdf のインストール PDF を HTML や TXT ファイルに 変 換 する 事 が 可 能 です ただし PDF のテキスト 抽 出 は xpdf を 使 用 しますので サーバーに xpdf をインストールする 必 要 があります (OpenOffice.org は 使 われません ) 4-1 サーバーが Linux の 場 合 1. 以 下 のサイトから xpdf と その 日 本 語 化 パッケージ xpdf-japanese をダウンロードします http://www.foolabs.com/xpdf/ 2. 以 下 の 手 順 で xpdf をインストールします $ tar zxvf xpdf-3.02.tar.gz $ cd xpdf-3.02 $./configure $ make $ su # make install 3. 次 に 以 下 の 手 順 で xpdf-japanese をインストールします $ tar zxvf xpdf-japanese.tar.gz $ cd xpdf-japanese $ less README マニュアルを 見 ながら その 手 順 どおりにインストールを 行 います $ su # mkdir /usr/local/share/xpdf/japanese # cp * /usr/local/share/xpdf/japanese/ # cat add-to-xpdfrc >> /usr/local/etc/xpdfrc 13
4.pdftohtml をインストールします PDF からテキストへ 変 換 するだけなら xpdf のみで 可 能 ですが HTML へ 変 換 するには pdftohtml を 別 途 インストールする 必 要 があります 以 下 のサイトから pdftohtml をダウンロードして 下 さい http://pdftohtml.sourceforge.net/ 以 下 の 手 順 で pdftohtml をインストールします $ tar zxvf pdftohtml-0.39.tar.gz $ cd pdftohtml-0.39 $ less README マニュアルを 見 ながら その 手 順 どおりにインストールを 行 います $ make $ su # cp src/pdftohtml /usr/local/bin/ 以 上 で インストールは 完 了 です 14
4-2 サーバーが Windows の 場 合 1. 以 下 のサイトから xpdf をダウンロードします http://www.foolabs.com/xpdf/ 2.ダウンロードしたファイル(xpdf-3.02pl4-win32.zip)を 解 凍 し "C: Program Files xpdf"の 下 に 置 きます 15
3. 環 境 変 数 を 設 定 します "C: Program Files xpdf"を 環 境 変 数 の PATH に 追 加 して 下 さい 16
コマンドプロンプトで "pdftotext" と 入 力 し プログラムが 動 作 すれば OK です もし 以 下 のようなメッセージが 返 ってきた 場 合 は 環 境 変 数 の 設 定 が 上 手 くいっていません 'pdftotext' は 内 部 コマンドまたは 外 部 コマンド 操 作 可 能 なプログラムまたはバッチ ファイルとして 認 識 されていません また gswin32c.exe へのパスも 通 っている 必 要 があります コマンドプロンプトで "gswin32c h" と 入 力 し 以 下 のようなメッセージが 返 ってきた 場 合 は 環 境 変 数 の PATH に gswin32c.exe のパスを 指 定 して 下 さい( 通 常 "C: gs gs(バージョン 番 号 ) bin"にあります) 'gswin32c' は 内 部 コマンドまたは 外 部 コマンド 操 作 可 能 なプログラムまたはバッチ ファイルとして 認 識 されていません 17
4.pdftohtml をインストールします PDF からテキストへ 変 換 するだけなら xpdf のみで 可 能 ですが HTML へ 変 換 するには pdftohtml を 別 途 インストールする 必 要 があります 以 下 のサイトから pdftohtml をダウンロードして 下 さい http://pdftohtml.sourceforge.net/ ダウンロードしたファイル(pdftohtml-0.39-win32.tar.gz)を 解 凍 し pdftohtml.exe と pdf2xml.dtd を "C: Program Files xpdf"にコピーしてください 以 上 で インストールは 完 了 です 尚 HTML への 変 換 で 画 像 が 抽 出 されない 場 合 は gswin32c.exe へのパスが 通 っていない 事 が 原 因 です 環 境 変 数 のパスに gswin32c.exe へのパスを 通 してください 18
5 設 定 ファイル 設 定 ファイルは OpenCms の VFS 上 の 以 下 の 場 所 にあります /system/modules/jp.zyyx.opencms7_5_1.openoffice/classes/jp/zyyx/opencms/openoffice/ messages.properties openoffice.hostname = localhost openoffice.port = 8100 openoffice.temp_dir = ootemp # 1: 全 頁 を 1 つの HTML ファイルに 出 力 2:ページ 単 位 に HTML ファイルを 作 成 3: 両 方 xpdf.pdftohtml.mode = 3 xpdf.pdftohtml.mode の 設 定 値 を 1 にすると PDF を HTML に 変 換 したとき PDF の 全 ページが 一 つの HTML ファイルに 出 力 されます もし ページ 単 位 で 分 割 して HTML ファイルを 生 成 したい 場 合 は 2 を 指 定 します 1 と 2 両 方 を 出 力 させたい 場 合 は 3 を 指 定 します 現 時 点 では JODConverter が 対 応 していない 為 openoffice.hostname に 別 のサーバーの IP を 指 定 することは 出 来 ません 指 定 してもエラーとなりフォーマット 変 換 は 失 敗 します 19