とりあえずタイタニックのチュートリアルが何やっているのか分からんかったので、簡単な例から始める
以下で、流れはなんとなく分かった
RandomForestClassifier みたいな必殺技を使えばいいのか
contents
基本的な5step
もちろんです。以下にタイタニック号の生存者予測問題について、Pythonを用いた基本的なステップを示します。
データの読み込み
- pandasの
read_csv
関数を使用して、トレーニングデータとテストデータを読み込みます。
import pandas as pd train_data = pd.read_csv("/kaggle/input/titanic/train.csv") test_data = pd.read_csv("/kaggle/input/titanic/test.csv")
- pandasの
データの理解と前処理
- データを理解するためには、データを探索することが重要です。例えば、
head
メソッドを使ってデータの一部を見たり、info
メソッドで各特徴量の情報を得たりできます。 - このステップではまた、欠損値の処理やカテゴリ変数のエンコーディングなど、データの前処理も行います。
train_data.head()
- データを理解するためには、データを探索することが重要です。例えば、
特徴量とターゲットの選択
- 予測モデルを訓練するために、特徴量(予測に使用する変数)とターゲット(予測したい変数)を選択します。
features = ["Pclass", "Sex", "SibSp", "Parch"] X_train = pd.get_dummies(train_data[features]) Y_train = train_data["Survived"] X_test = pd.get_dummies(test_data[features])
モデルの訓練
- ここでは、
RandomForestClassifier
を使用してモデルを訓練します。
from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1) model.fit(X_train, Y_train)
- ここでは、
テストデータでの予測と結果の提出
- テストデータを使って生存者を予測し、その結果を提出用のCSVファイルに保存します。
predictions = model.predict(X_test) output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions}) output.to_csv('my_submission.csv', index=False)
これらのステップは非常に基本的なもので、実際にはもっと詳細なデータ分析や前処理、モデルの選択とチューニングが必要になる場合があります。しかし、このプロセスは機械学習の一般的なワークフローを理解する良い出発点になります。
1. データの読み込み
もちろんです。これは、データを使う準備をする部分です。
データの読み込み: ここでは、私たちが使う情報(データ)を読み込んでいます。コンピューター内にある特定の場所(ここでは "/kaggle/input/titanic/train.csv" と "/kaggle/input/titanic/test.csv")からデータを取ってきています。これはちょうど本を棚から取り出して開くようなものです。
なので、この部分は「データを読み込んで、学習用のデータとテスト用のデータに分ける」ということをしています。
2. データの理解と前処理
もちろんです。これはデータの理解と前処理の部分です。
データの理解と前処理:データを理解するためには、まずデータをよく見てみることが大切です。それはまるで、新しいおもちゃを手に入れたときに、まずはそれを色々と触ってみるようなものです。
head()
は、データの最初の部分を見るための関数です。おもちゃの箱を開けて、中に何が入っているか見るようなものです。この関数を使うと、データがどのような形で、どんな情報を持っているのかを確認することができます。前処理とは、データを使いやすい形に整える作業のことです。おもちゃを組み立てたり、電池を入れたりするのが前処理に相当します。データによっては、使う前にいくつかの準備が必要なことがあります。
なので、この部分は「データをよく見て、使いやすい形に整える」ための作業を行っています。
3. 特徴量とターゲットの選択
もちろんです。この部分は、私たちが予測モデルを作るために何を使うかを選んでいます。それはちょうどお料理をする時に何を使って料理を作るかを決めるようなものです。
特徴量(features) : これらは私たちが予測をするために使う情報です。この例では、"Pclass"(客室のクラス)、"Sex"(性別)、"SibSp"(乗船している兄弟や配偶者の数)、"Parch"(乗船している親や子供の数)を選んでいます。これらはすべて、乗客が生き残るかどうかに影響を与える可能性がある情報です。これらを選ぶことは、どんな食材を使って料理を作るかを選ぶようなものです。
ターゲット(Y_train) : これは私たちが予測したいものです。この場合は、"Survived"(生存したかどうか)をターゲットとしています。これはお料理で言うところの、「何を作りたいか?」ということです。例えば、スパゲッティを作りたいなら、ターゲットは「スパゲッティ」になります。
pd.get_dummies(train_data[features])
: これは「ダミー変数化」と呼ばれる処理で、カテゴリー変数(例えば「男性」か「女性」のようなカテゴリーを持つ変数)を数値に変換します。なぜかというと、コンピューターは数値を扱うのが得意なので、数値に変換することでコンピューターが予測モデルを作るのを助けています。
なので、この部分は「何を使って何を作るか?」を選んで、そしてそれをコンピューターが使いやすい形に変えている、ということになります。
4. モデルの訓練
もちろんです。これは、モデルを訓練する部分です。
モデルの訓練:モデルを訓練するとは、モデルにトレーニングデータを使って学習させることです。モデルはトレーニングデータからパターンやルールを学びます。この例では、「ランダムフォレスト」という名前のモデルを使います。
RandomForestClassifier: 「ランダムフォレスト」とは、多数の決定木(データを分類するためのシンプルなモデル)を組み合わせたモデルです。森はたくさんの木でできているように、ランダムフォレストもたくさんの決定木でできています。それぞれの決定木が異なる角度からデータを見て、その結果をまとめることでより良い予測をします。
n_estimators=100, max_depth=5, random_state=1
:これらはモデルの設定です。n_estimators=100
は「決定木を100本使う」という意味、max_depth=5
は「各決定木の深さを5にする」という意味、random_state=1
はランダムな操作を再現可能にするためのものです。model.fit(X_train, Y_train)
: これはモデルにトレーニングデータを「食べさせて」学習させる部分です。X_train
が問題で、Y_train
がその答えです。モデルはこの問題と答えのセットから学習します。
なので、この部分は「ランダムフォレストというモデルを使って、データから学習する」ということをしています。
5. テストデータでの予測と結果の提出
もちろんです。これはテストデータでの予測と結果の提出の部分です。
テストデータでの予測と結果の提出:これまでのステップで、我々は賢い予測機(モデル)を作り上げました。この予測機にテストデータ(答えが隠されているデータ)を見せて、どんな答えを出すか見てみます。これが予測の部分です。
predict()
は、我々が訓練したモデル(予測機)にテストデータを見せて、何が起こるか予測させる関数です。これはまるで、訓練を終えたスーパーヒーローに敵(問題)を見せて、どんな行動を取るか見てみるようなものです。最後に、我々のモデルが出した答えを提出します。これは、答えを教師に見せて採点してもらうようなものです。答えは、
to_csv()
関数を使って、一覧表(CSVファイル)の形で保存します。
この部分は、まるで試験を受けて答えを提出するようなものです。テストデータに対する予測を行い、その結果を提出して採点を待つ、そんな感じです。