S-PLUS for Windows 初歩の初歩 Chapter6

6.データウィンドウ


オブジェクト・ブラウザでdata.frameをクリックし、右側に表示されたデータオブジェクト名をクリックすると、データの入ったデータウィンドウが表示されます(前章 図5-3)。

今回は、fuel.frameというデータを選んでみましょう。

(図6-1 fuel.frameをオープンしたデータオブジェクト)

S-PLUSのオブジェクト・ブラウザでは、よくピリオドの後にデータオブジェクトの形式名をつけます。このように、ところどころS言語の考え方が入っていますが、初めの内はあまり細かいことは気にしないようにしましょう。

図6-1は、表計算ソフトや他の統計解析ソフトで見慣れた画面だと思います。S-PLUSを解析アプリケーションとして使う場合、よく使うウィンドウです。表計算ソフトなどとの違いで目に付くのは、上から一番目の灰色の行に変数名が入っていること、一番左の列にケースの名称が入っていることです。

このfuel.frameは、自動車に関するデータです。米国で作ったデータなので、少し分かりにくいところがあるので、変数について少し説明しましょう。

Weight 重さ。ただし米国のデータなので単位はポンド。1ポンドは約0.45kg。
Disp. 排気量(displacement)。単位は立方インチ。 1立方インチは約16.4cc。
Mileage 燃費(mile/gallon)。すなわち1ガロンで何マイル走るかを表す。1マイルは約1.6km、1ガロンは約3.75リットル。
Fuel 100マイルを走るのに何ガロン必要か、つまり100÷Mileage。
Type 車のタイプ。日本人の感覚からするとちょっと違うので、一応説明します。
small 小型車です。ただ、日本とは違って、リッターカー(1000ccクラス)から1600ccクラスの車までが相当するようです。トヨタカローラ、ホンダシビック、日産サニーという名前があります。
sporty スポーツタイプ。排気量では分けていないのでカマロやマスタングといった5000ccクラスのアメ車と1600ccクラスのホンダCR-Xが一緒です。
compact 1800〜2000ccクラスの車です。スバルレガシィやトヨタカムリといった車があります。日本人の感覚からすると、コンパクトというには違和感があるかもしれません。
medium 2500cc以上の車で、日本では3ナンバーの車です。日産マキシマやフォードのトーラスといった車の名前があります。日本ではこのくらいだと立体駐車場に入れなかったりするのですが、米国人の感覚ではmediumのようです。
large 米国人がラージというくらいですから、それはそれは大きな車です。 ここに出てくるFordのCrown Victoriaという車は、長さが5メーター以上、幅が2メートルぐらいある大きなセダンで、[日本のたいていの駐車場にはとめられない]という理由で日本未発売の車です。
van いわゆるミニバンです。ここには日本でも売っているマツダMPVの名前があります。

S-PLUSの変数名は、アルファベットの大文字と小文字を区別します。今回のサンプルデータにはWeightという変数がありますが、別の変数としてweightやWEIGHTという名前の変数を定義することができます。

今回のデータにDisp. という変数がありますが、このようにS-PLUSではピリオド(.)を変数名に使用することができます。ピリオドは変数名の途中や最後で使うのは問題ありませんが、ピリオドで始まる変数名は特別な場合に使うものなので、作らないようにします。S-PLUSではハイフン(-)やアンダーバー(_)は変数名に使用することができません。数字も変数名に使えますが、数字で始まる変数名を定義できません。

このように、S-PLUSの変数名はアルファベットの大文字と小文字を区別し、ピリオドが使え、ハイフンやアンダーバーがつかえないというのが一つの特徴になります。この特徴をよく理解してください。特に、他のソフトとデータをやり取りする場合、この特徴がネックになることがあります。データのやり取りに関しては、13章のデータのインポート・エクスポートを見てください。

データウィンドウのデータをプリントアウトしたい場合は、[ファイル]メニューの[データシートの印刷]から印刷することができます。印刷する前には、図6-2の画面で[データシート印刷]の下にある[印刷設定]でプリンタなどの設定を確認することをお勧めします。

(図6-2 ファイルメニューの一覧[データシート印刷]は真ん中あたり)

データウィンドウで変数名上部の数字をダブルクリックすると、変数定義のダイアログが出てきます。

(図6-3 変数定義のダイアログ(Double Precision Column))

ここで変数名を定義したり、変数のフォ−マットを定義します。S-PLUSのデータウィンドウでは新規入力のデータはデフォルトで、数値型(Double: 倍精度)になっていて、フォーマット(表示形式)はDicimal(小数あり)になっています。フォーマットを変えることで、日付型や通貨型が表示できます。フォーマットは、右上にあるFormat Typeリストで設定・変更します。フォーマットには、Scienfitic(科学的表記 例1.00e+0.03)、Finaicial(通貨)、Date(日付)などがあります。

データを新規に入力する場合は、データを入力した時点で定義が自動に生成されるので、既存データと同じように定義の変更ができます。変数名だけを変更する場合は、データの二行目をダブルクリックして、変数名を入力することができます。

(図6-4 ダブルクリックすると変数名が反転する)

文字型のデータを入力したいときは、[データ]メニューから[列形式の変換]を選択し、データ型を変更します。フォーマットの変更はあくまで表示形式の変更なので、文字データを入力する場合は、変数形式そのものを変更しなくてはなりません。変更するには、新しい列にデータ名を入れてから[データ]メニューの[列形式の変換]を選択します。

(図6-5 データメニュー一覧 [列形式の変換]は下から二番目)

[列形式の変換]をクリックすると、図6-6のダイアログが出てきます。

(図6-6 列形式の変換(Change Data Type)右下のColumn Typeリストで形式を選択する)

Column Typeで文字データにしたい変数名を選び、Column Typeをfactorかcharacterにします。characterにすると、統計関係の出力処理は行われません。したがって、入力した文字データを集計やグループ分けに使いたい場合は、Column Typeをfactorにする必要があります。

なお[列形式の変換]は、すでに存在しているデータ列に対してのみ実行できます。つまり、何らかの形でデータが入っているところでないと、設定を変更することができません。データ入力前に列形式を変更したいときでも、とりあえず変数名を入力するようにします。変数名さえあれば、データ列が定義でき、図6-6のColumnsリストで変数名を選択できるようになります。

Change Data TypeでColumn Typeをfactorにした場合、その変数の設定画面は下のようになります。図6-3の数値と比べてみてください。

(図6-7 factorの変数定義)

今回はサンプルデータをそのまま使用しますが、既存のデータを編集したり、データを新規に作成したい場合のデータの保存については、最終の14章を参照してください。

戻る 次へ

ご意見、ご感想はNTTデータ数理システムS-PLUSグループ <splus-info@ml.msi.co.jp>