Xtra etc

日記系雑記ブログ: 農業、データサイエンス、自然

【スポンサーリンク】

プログラミング素人が R で統計解析できるようになるまでの全行程

f:id:yzxnaga:20190119202858j:plain

プログラミングについてはまだまだ全くの素人ですので, 偉そうなことは言えませんが, プログラミング素人 = つまり私が, R で統計解析できるようになるまでの行程を, 順番に書いて・記録してみたいと思います.

 

【目次】

 

まず, R で統計解析, て, どの程度のことをしているのかと言うと, 現在 (2019年 1 月), 農学部 (分野は園芸学です) の 4 年生で, 卒論の統計解析を R でしてみようと思い立ち, 結果, すべて R で行いました. ちなみに R 以外のプログラミング言語を, ちゃんと何かの役に立つレベルで使ったことはありません. つまり, プログラミングについては全くの素人です.

本記事では, プログラミング素人のわたしが, どのようにして卒論の統計解析を R で行えるようになったのかを, ざっくりと, 参考文献など交えながら紹介します. 統計に興味あってかつ R にも興味あるけど, なんだか難しそう… 的な先入観をお持ちの方が, これを読んで「自分でもできるかも!」と思っていただければ, 記事を書いた甲斐があります.
あまり前置きが長くなっても仕方ないので, 本題へどんどん入っていきましょう.

統計学をどこで学んだか

R で統計解析を行うにあたって前提になるのは, 統計学のある程度の知識です. これは外せません. わたしは農学部ですので, 統計学のなかでも, 農学系の (と言っても広いですが) データ分析に必要な統計 = 生物統計学をある程度習得しなければなりませんでした. この場合のある程度の習得というのは, 参考書などを何も見ずにデータから統計解析ができる, といった意味ではなく, 統計学の解説書に書いていることを理解でき, データと計算機があれば適切に統計学の知識を活用できる, という意味です.

まあ, この点が, 統計学を全く学んでいない人からすると, イメージをつけづらいかもなんですが.

では, どこで私が統計学を学んだかというと, 大学の講義です. 講義でどの分野を学んだかは忘れてしまいましたが, 例えば以下の本に書かれている程度であれば, 理解できます.



 

ページ数はそんなに多くないですが, 農学系, 特に作物・園芸系に必要な統計学であれば, 卒論程度ならこれで充分だと思います. 卒論研究中は, 常に手元に置いて参考にしていました.

ということで私は統計学は独学ではありません. 初学者が完全に独学で統計学を習得することが, 多くの人にとって可能かどうかは分かりません. 統計学を学んでみたいけど身近にそういった環境がない場合は, インターネットや入門書などにいくつか目を通すしかないのではないでしょうか. 生物学に限らない, 統計学一般についての入門書でオススメなのは思い浮かびません. が, web サイトであれば例えば,

は目を通しておいて損はないはずです. とは言え, もう一度言いますが, 初学者・独学で上記2つのサイトいきなり理解できるかどうかは私にはわかりません.

R をどこで知ったか・使い始めたか

R については, 図書館の統計学のコーナーなどで, そういうソフトがあるのだな, と言うのは知っていました. ただ, そのソフトがあると言うのを知った時点では, プログラミングの経験というのが一切なかったので, 「なんだか難しそう」と言う認識で, 積極的に使ってみようとは思いませんでした.

初めて使ったのは, やはりこれも大学の講義です. 生態学の講義が, R を使用して, 既存の昆虫のデータを分析するという内容で, そこで初めて歩をインストール, 使用しました.

その時は本当にお試し程度で, あまり R についてはよく分かりませんでした. 「Excel よりはだいぶ便利なソフトだな」程度の印象でした.

ただ, そのとき, その講義の担当教員から, 「別の講義でも R を使用するが, アシスタントをしてみないか」という声がかかり, もう一度 R に触れる機会が出来ました. その際, 「授業のアシスタントをするのだから, もう少し R について詳しく知らないといけないな」と思い, R についてインターネットを中心に調べ, その時自分が卒論の研究で集めたデータを実際に R で分析してみました.

そうして少しずつではありますが, 自分で・能動的に R を使い始められるようになりました.

ちなみに, 最初の生態学の講義というのが昨年の4月, アシスタントを始めたのが12月ですので, あれを使い始めてまだ1年も経っていません (この記事を書いているのは2019年の1月です).

アシスタントを始めるにあたり, 参考にしたウェブサイトは, 以下の通りです.

これらの web サイトは, 今でも頻繁に参考にしています.

また同時に, R で統計処理をするための本も参考にしました.

  • 内田 治, 西澤 英子『Rによる統計的検定と推定』(オーム社, 2012)
  • 嶋田 正和, 阿部 真人『R で学ぶ統計学入門』(東京化学同人, 2017)



 

特に『Rによる統計的検定と推定』の方は非常に分かりやすく,「簡単な統計学の知識は習得している, とりあえず R を試してみたい」という方にはオススメです. 

以上の2冊は, R を使って, 統計学について学ぶと言うのが主なテーマです. R での統計解析を効率的に行うための, データの前処理 (後述します) 等については, 載っていません.

卒論で R でのデータ解析のために参考にした本

R を能動的に使い始めた当初は, データを読み込んで, 簡単な関数を実行したり, グラフを描く程度でした. 現在でも高度な事はできませんが…

ただ, 卒論で R を使うとなると, データの前処理というのが必要になります. 要するに, 集めて Excel ファイル等に打ち込んだデータを, R で解析しやすいように, いわば「組み直す」という処理です.

これは, もちろん手作業でも不可能ではありませんが, データの数が多くなると, 手作業では間違いを起こしやすい. それに, データの数が多いどころか膨大になってくると, 手作業では無理です.

前処理をしっかり行わないといけないな, と言うのに気づいてから, インターネット上の情報を細切れに, 対症療法的に集めてするのではなく, もう少し体系的に知らなければいけないと思うようになりました. そこで参考にしたのが, 以下の2冊です.

  • Winston Chang『Rグラフィックスクックブック: ggplot2によるグラフ作成のレシピ集』(オーライリージャパン, 2013)
  • Garrett Grolemund『RStudioではじめるRプログラミング入門』(オーライリージャパン, 2015)



 

これらの本を参考にし始めたのがこの記事を書いている時点から約 2 週間前です. 現在は, 農学でも作物・園芸学分野に関わる統計解析であれば, ほぼ R で行うことができます. 現在, 卒論に関するデータ解析は終了し, 絶賛本文執筆中です. 緒言! 難しい!

ということで, プログラミング素人が R で統計解析できるようになるまで, でした. 統計学を学び始めた, R に触れたきっかけは大学の講義でしたので, この記事を読んでいただいている方のなかで「初学者で・独学で」という方がいらっしゃったなら, あまり参考にならなかったかもしれません. ただ, 紹介した本は参考になるはずです.

統計を学ぶと世界の見方が変わります. また, R でのデータ解析のコツが分かれば (特にデータの前処理), たとえばエクセルで行うよりはるかに効率的で, 何より他の高度な機能を持つ統計ソフトと違って無料です (ちなみに, 無料で高度な機能を持つ統計ソフトは, GUI (GUI て何やねん, という方はコチラを参考にしてください). のものであればけっこうあります. たとえば「【厳選】無料で使える統計ソフト6選【比較】 」を参考にしてみてください). エクセルや高価な統計ソフトを使用し続けるのであれば, R を覚えて使いこなすメリットは充分にあります.

統計解析が必要で, R をまだ使ったことのない方は, ぜひ R を使ってみてください!

【スポンサーリンク】