全文検索用セットアップ



WEKOで全文検索を行うときには,Mroonga(http://mroonga.org/ja/)またはTritonn(http://qwik.jp/tritonn/)を利用します.

推奨する検索エンジンは「Mroonga」です。(MroongaはTritonnの後継になります)
なお、RHLE5系、CentOS5系の場合は「Tritonn」を利用いただくと容易にインストールいただけます。
 

Mroongaセットアップ


WEKOで全文検索を行う時には,Mroonga(http://mroonga.org/ja/)を利用します.
Mroongaは,MySQLのプラグインとして動作し、全文検索を可能にするパッケージです.
  1. Mroongaを利用するために必要なGroongaリポジトリを導入します.
    sudo yum install http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm

  2. Mroongaのインストール
    sudo yum install groonga
    sudo yum install mysql-mroonga (MySQLのrootユーザーのパスワードが聞かれる場合があります)

  3. MroongaのMySQLへの組み込み
    MySQLにrootユーザーでログインして以下のコマンドを実行してください.
    SHOW ENGINES;

    エンジンの一覧に"mroonga"が存在しなかった場合は以下のコマンドを実行後、再度確認を行ってください.
    INSTALL PLUGIN mroonga SONAME 'ha_mroonga.so';

 

Tritonnセットアップ

WEKOで全文検索を行うときには,Tritonn(http://qwik.jp/tritonn/)を利用します.Tritonnでは,MySQLから全文検索エンジンSennaを利用可能にするために必要なパッケージが提供されています.
  1. TritonnのMySQLを利用するためにパッケージにMySQLを削除しておきます.
    sudo yum remove mysql
    MySQLがインストールされてなくても確認のために上記を行っても問題ありません.
    下記のメッセージがでるだけです.
    No Match for argument: mysql
    No Packages marked for removal

  2. Tritonのインストール
    http://sourceforge.jp/projects/tritonn/releases/から必要なパッケージをダウンロードしてください.mecab, mecab-ipadic, senna, MySQL-shared, MySQL-client, MySQL-serverを取得します.以下は,2008年12月13日時点でのLinux X86用のパッケージへのリンクです.
    mecab-0.97-tritonn.1.0.12.i386.rpm
    mecab-ipadic-2.7.0.20070801-tritonn.1.0.12.i386.rpm
    senna-1.1.4-tritonn.1.0.12.i386.rpm
    MySQL-shared-5.0.67-tritonn.1.0.12.i386.rpm
    MySQL-client-5.0.67-tritonn.1.0.12.i386.rpm
    MySQL-server-5.0.67-tritonn.1.0.12.i386.rpm
    MySQLと依存関係のあるperl-DBIを先にインストールした後に,上記のRPMをインストールします.
    sudo yum install perl-DBI
    sudo rpm -ivh mecab-0.97-tritonn.1.0.12.i386.rpm
    sudo rpm -ivh mecab-ipadic-2.7.0.20070801-tritonn.1.0.12.i386.rpm
    sudo rpm -ivh senna-1.1.4-tritonn.1.0.12.i386.rpm
    sudo rpm -ivh MySQL-shared-5.0.67-tritonn.1.0.12.i386.rpm
    sudo rpm -ivh MySQL-client-5.0.67-tritonn.1.0.12.i386.rpm
    sudo rpm -ivh MySQL-server-5.0.67-tritonn.1.0.12.i386.rpm
     
  3. MySQLの設定
     この時点でMySQLはOSの起動と同時に自動的に立ち上がるようになっているはずです.以下のコマンドで確認してください.
    /sbin/chkconfig --list mysql
    mysql           0:off   1:off   2:on    3:on    4:on    5:on    6:off
    となっていればOKです.もし,全部offならば,
    sudo /sbin/chkconfig mysql on
    として自動起動するように設定しておくと便利です.
    その他のMySQLの設定は,アプリケーション設定のページのMySQLの設定3番から行ってください.このとき,1のMySQLのインストールは,すでにTritonnバージョンをインストールしているので実行しないでください.2のサービスの自動起動も,上記で実施していますので,すでに完了しています.
 
 

PDFテキスト抽出セットアップ

WEKOではPDFからテキスト抽出して,その内容を上記の全文検索エンジンの検索対象とします.テキスト抽出には,popplerのpdftotextというコマンドを利用します.以下に従ってパッケージをインストールしてください.
  1. pdftotextのインストール
    sudo yum install poppler-utils
     これだけでOKです.
 
 

MS Officeファイルからのテキスト抽出セットアップ

WEKOではMS Office 2003以前のワード(doc),エクセル(xls),パワーポイント(ppt)ファイルの中身も全文検索の対象とすることができます.以下に従って,必要なライブラリをインストールしてください.
 

wvWareのインストール

ワードファイルの中身を抽出するために,wvWareを利用します.
  1. http://prdownloads.sourceforge.net/wvwareからwvの最新版ソースをダウンロードしてください.2008年12月13日現在では,1.2.4が最新バージョンです.ソースダウンロード

  2. ソースコードを展開
    tar zxvf wv-1.2.4.tar.gz
     
  3. コンパイルに必要なパッケージをインストール
    sudo yum install gcc
    sudo yum install autoconf
    sudo yum install automake
    sudo yum install libtool
    sudo yum install libgsf-devel
    多分,こんだけ入れば十分なはずです. 

  4. コンパイル
    cd wv-1.2.4
     ./autogen.sh
    make
    sudo make install
      

xlhtmlのインストール

エクセルとパワーポイントの中身を抽出するために,xlhtmlを利用します.
  1. http://chicago.sourceforge.net/xlhtml/からxlhtmlの最新版ソースをダウンロードしてください.2008年12月13日現在では,0.5が最新バージョンです.ソースダウンロード 0.5.1というのもあるようです.sourceforgeからうまくダウンロードできない場合は,こちら(0.5.1ソースコード)をダウンロードしてください.

  2. ソースコードを展開
    tar zxvf xlhtml-0.5.1.tar.gz
     
  3. コンパイル
    cd xlhtml
    ./configure
    make
    sudo make install
    コンパイルの環境を一度整えているから簡単だね.