統計数理研究所

2023年6月5日 (Ver. 1.3.7)



1. はじめに

 CATDAP (CATegorical Data Analysis Program)は,統計数理研究所で開発された最適な分割表(クロス表)の探索のためのプログラムである.CATDAP には,CATDAP-01 と CATDAP-02 とがある.CATDAP-01 は,カテゴリカルな(質的)データに対し二次元分割表の比較を行い各変数の間の関係の深さを検出するプログラムである.全ての変数がカテゴリカルであることが前提となる.CATDAP-02 は,ひとつの着目した項目(目的変数)を固定し他の項目(説明変数)の組合せで多次元分割表を作り,目的変数の分布の違いを最も適切に説明する説明変数組合せを探索する.このプログラムは量的な項目も適当に区分してカテゴリカルなデータに帰着することにより,変数が量的か質的かにかかわらず適用できる.いずれも最適な説明変数の選択には,AIC (Akaike Information Criterion) が使われている.

 Rパッケージ catdap は,FORTRANで書かれた CATDAP の計算処理機能をライブラリ化することにより,R からこれらを関数として利用できるようにした.このパッケージには catdap1 と catdap2 の二つの関数があり,それぞれ CATDAP-01 と CATDAP-02 と同様の解析と結果出力をする.Rはオリジナルデータの変換も容易で分割表のモザイクプロット表示も可能なので,RのパッケージとしたことでCATDAPでの解析も効率良く行えるようになった.

 オリジナルの CATDAP-02 では目的変数が量的な項目であるデータには適用できなかったが,関数 catdap2 では

  1. Base AIC (=説明変数なしモデルの AIC) の利用 (バージョン 1.0.6以降)
  2. 連続値目的変数に適用 (バージョン 1.2.0以降)
  3. 目的変数, 説明変数に欠測が含まれるデータに適用 (バージョン 1.3.4以降)

が可能となり機能強化された[5].このプログラムであてはめられたモデルと,目的変数に正規分布を仮定する回帰モデル あるいは ロジスティック回帰モデルとのAICの比較が可能である.いうなれば,“CAT” が “TIGER” となった The Integrated GenERal Data Analysis Program とでも称すべきバージョンとなっている.

 さらに「CATDAP 機能強化プラン」[7]では,以下の二つの機能

  1. 角度データ(circular data) の扱い
  2. 条件付き確率のグラフィカル出力

を追加した論理的にあり得る全てのタイプのデータに対応可能なプログラムが提案され,これを基に(1)~(5)を実装した catdap2の拡張パッケージ catdap2ext が開発された.

 また,関数 catdap2 の機能は RcmdrPlugin.catdap パッケージを利用して,RコマンダーのGUIから利用することも可能である. Shiny を用いた Web アプリケーション RS-Catdap も提供されている.


2.R のインストール

 ここでは,Windows版 Rのインストール方法について簡単に説明する.Linux版や他のバージョンのインストール方法については,RjpWiki を参照のこと.

  1. CRANのホームページ (https://cran.r-project.org/) または 統計数理研究所のミラーサイト (http://cran.ism.ac.jp/) からRのインストーラーをダウンロードする.

  2. ダウンロードした実行ファイル (例えば R-4.2.3-win.exe) を開きインストーラを起動する.表示画面に従ってセットアップに使用する言語を選択「Japanese(OK)」し,セットアップウィザードを開始し完了画面まで進み「完了」をクリックする.


3. パッケージ catdap のインストールとロード

 catdap パッケージは CRANの拡張パッケージ (Contributed Packages) としても登録されているので,macOS用のバイナリはこちらからダウンロードできる.
 依存パッケージ RColorBrewerは先にインストールしておく必要がある.

3.1 Windowsの場合
  1. バイナリファイル catdap_1.3.7.zip を適当なフォルダにダウンロードする.

  2. R (RGui) を起動し,メニュー [Packages] から

       –> パッケージのインストール…
       –> CRAN のミサーサイトに Japan(Tokyo) を選択し,Packagesリストから RColorBrewer を選択.
  3.  
  4. メニュー [Packages] から

       –> Install package(s) from local zip files…
       –> Select files で ダウンロードした catdap_1.3.7.zip を選択.
  5.  
  6. メニュー [Packages] から

       –> Load Package..
       –> Select one で catdap を選択.
3.2 Linuxの場合
  1. ソースファイル catdap_1.3.7.tar.gz を適当なディレクトリにダウンロードする.

  2. ターミナルで R を起動し,

      > install.packages(“RColorBrewer”)
      > install.packages(“ダウンロード先のパス/catdap_1.3.7.tar.gz”, repos=NULL)

     を実行して RColorBrewer パッケージと catdap をインストール.

  3.  
  4. catdapをロードする.

      > library(catdap)


4. ヘルプの使い方と実行例

 関数の利用方法については,例えば catdap2() の場合

   > help(catdap2)

 を実行する.ヘルプページの例題は,コピー&ペーストすることによって実行することができる.


 下の図は,健康に関するデータを用いてcatdap2を実行した結果である.
 左図は二次元分割表を帯グラフで表した場合,右図はAIC最小モデルをモザイクプロットを使ってグラフ化した場合の例である.

リファレンスマニュアルのダウンロードは こちら



5. 参考文献

[1] Y.Sakamoto and H.Akaike (1978). Analysis of Cross-Classified Data by AIC. Ann. Inst. Statist. Math., 30, pp.185-197.
[2] K.Katsura and Y.Sakamoto (1980). A Categorical Data Analysis Program Package, Computer Science Monographs, No.14.
  The Institute of Statistical Mathematics, Tokyo.
[3] Y.Sakamoto (1985). Categorical Data Analysis by AIC, Kluwer Academic publishers.
[4] (株) NTTデータ数理システム (2015). 情報量統計学的データ可視化ツール. http://hdl.handle.net/10787/3614
[5] 石黒 真木夫 (2016). CATDAPマニュアル. http://hdl.handle.net/10787/3821
[6] 石黒 真木夫 (2016). 統計モデル可視化. http://hdl.handle.net/10787/3823
[7] 石黒 真木夫 (2021) CATDAP機能強化プラン. http://hdl.handle.net/10787/00034178


本パッケージに関するバグ報告等がありましたら ismrp(at)grp.ism.ac.jp 宛お寄せ下さい.