機械学習レスで「Titanic」分析してみた

データ分析界隈では有名な、kaggleの”Hello, world.”とも言うべき登竜門コンペ「タイタニック」。今回は、本コンペのデータを用いた可視化を行いました。

タイタニック号の悲劇はとても有名ですよね。1912年イギリスからニューヨークへ出発した処女航海中の「不沈船」タイタニック号は出航からわずか4日で氷山に激突し沈没しました。乗客2,453人の内1,513人が亡くなったと言われる当時世界最悪の事故でした。

ですがこのタイタニック号、データサイエンティストたちにとっては別の意味でとても有名なんです。世界最大の機械学習のコンペサイトkaggle、このkaggleで最も有名な問題がこのタイタニック号のものです。公開されている乗客者リストから生存者と犠牲者を予測します。

一方、本記事では、機械学習は用いず(機械学習レスで)、データの可視化のみで、タイタニックの生存要因に関する知見を得てみたいと思います。プログラミングや機械学習の知識がなくても、提供されたデータをグラフにするだけで色々なことが見えてきますよ!

タイタニック号の歴史

1912年、世界の覇者になった欧米社会は自信を失い始めていました。
頻発する不況、植民地での独立運動、都市部の貧困や格差の拡大に疲弊していました。
そんな中、建造された不沈船タイタニック号は当初彼らの自信を取り戻してくれたものの、わずか4日で沈没したのですから彼らの落胆は大変なものでした。
後にこの悲劇は多くの映画や本や戯曲となり、近世以降のヨーロッパを理解をする重要なテーマの1つとなりました。

タイタニック号の象徴

数ある悲劇の中で、タイタニック号はなぜこれほど多くテーマとして選ばれるのか。
それはヨーロッパが潜在的に恐れる「階級社会の崩壊」を象徴しているからです。多くの物語では、沈没の直前に偉そうにしていた金持ちの年寄りは屈強な労働者に命乞いをし、子どもたちは大人たちに踏み倒され、3等車の人間が我先へとボートに殺到する…。階級の逆転劇が行われ、混乱と無秩序が船を襲ったのです…。

さて、実態はどうだったのか?

データの可視化を用いて見ていきましょう。
僕が考えた可視化のポイントとともに考察していきます。
※なお今回は、全てのグラフをエクセルで作成しています。

(可視化)生存率

生存率は、それ自体を棒グラフで表現したり、生存者/非生存者の人数を円グラフなどで表現することも可能です。しかし、生存率は単体の数値自体に意味があり、とくに値を比較する必要もありません。

そのため、今回は数字を大きく、強調色で表示しインパクトを持たせるようにしました。

(可視化)性別

男女による生存者の差異を円グラフで表現しました。ネットや様々な書籍などでは、円グラフは使わない方が良いとよく言われます。しかし今回は、あえて円グラフを使ってみました。

円グラフは、データが2種類のみで、かつ大雑把な割合を把握するような目的であれば、案外悪くありません。

結果としては、圧倒的に女性の生存率の方が高いことがわかります。女性が優先されて救出されたためです。それを目立たせるため、女性に関するデータに強調色を使っています。

(可視化)年代

適当な年代(ビン)に区切ったヒストグラムで表現しました。系統毎の値を分布で見る場合には、ヒストグラムが分かりやすいです。

目盛り線やラベルなどの、本質的に「伝えたいこと」とは関係ない情報は全て除去しています。

グラフを見ると、幼少世代の生存率が比較的高いことがわかります。ここでも、それを目立たせるため、幼少世代に関するデータに強調色を使っています。

(可視化)客室クラス

客室クラスは、値が小さいほどランクが高くなります。客室クラス毎の生存率を計算するなどしてデータを見ていくと、ランクが高い人ほど優先的に助けられていたことが分かります。

ここでは、客室クラスによる生存率の変化にフォーカスをして伝えたかったため、折れ線グラフを使いました。

(可視化)同乗者

同乗者がいたのか否か、という分け方で可視化を行いました。

同乗者(主に家族)は一緒に行動しているケースが多く、子供や女性が含まれていれば、優先して救出されていた様です。つまり女性や子供であることの方が、要因としては大きいということになります。※実際、女性と男性のグループに分けて、それぞれでこの可視化を行うと、女性のグループは、同乗者数による生存率の差異はほとんど無いことが分かります。

まとめ

今回は、Titanicの生存データに対して結果をを行いました。

グラフの作成には全てExcelを用い、グレーと青の2色で通常色と強調色を表現しました。グラフ種別は、伝えるメッセージによって下記を使い分けました。

  • 数字による表現
  • 円グラフ
  • 棒グラフ
  • ヒストグラム

本記事が、みなさんの抱える業務や課題において、少しでもお役に立てば幸いです。

最新情報をチェックしよう!

データ分析の最新記事8件