37 参考文献

参考文献とともに、おすすめのサイトなどについても、個人的に、学ばせせていただあいたものを中心に書いていきます。

37.1 教科書

すでに何度かご紹介していますが、Tidyverse の中心的開発者でもある、Hadley Wickham 等の書いた、次の本に勝るものは、ないと個人的には考えています。

R for Data Science(r4ds と略): https://r4ds.hadley.nz

詳細はリンク先をみていたければと思いますが、これを書いている段階で、第二版(2e)がちょうど出版、公開されました。わたしは、第一版で最初勉強し、この文書を準備し始めた頃には、第二版の暫定版が公開されていましたから、そちらは、全てではありませんが、読ませていただき、参考にさせていただきました。多くの部分が、この本に則っています。

第一版も、bookdown パッケージで書かれていますが、この書が、bookdown で書かれ、公開されたことから、他のさまざまな、データサイエンスの教科書も、たとえば、bookdown の Archive のようなところに公開されて、活用されてきたことが、R のデータサイエンスへの利用が、飛躍的に進んだ原因であると同時に、RMarkdown や、bookdown の開発と相まって、このような、Public Domain での出版が進んだ原因だと、個人的には確信しており、個人ではなく、RStudio Co.(現在は、Posit Co.)という会社組織で進んで行ったことが、安定度も含めて、大きな意味があったと思っています。その意味でも、世界を変えた一冊だと考えています。

一つだけコメントさせていただければ、印刷体だけでなく、Public Domain での出版ということで、プロの翻訳家が手を出さず、日本語訳が出なかったことが、日本での知名度が上がらなかった原因であるとも思います。しかし、Web Browser(ホームページ閲覧ソフト)の自動翻訳技術も飛躍的に進歩し(今後ますます進歩するでしょうから)、Web 上に公開することで、このような技術書は、絶対的ではないという状況になったことも、大きな変化かなと考えています。そのような学び方の改革をもご紹介し、その橋渡しができればと願って始めたのがこの文書のプロジェクトでもあります。

37.1.1 視覚化の教科書

良い本がたくさんでいます。まずは、Hadley Wickham の最初の、ggplot2 の本の第三版が、著者も増えていますが、執筆中として、電子版が公開されています。

  • ggplot2: Elegant Graphics for Data Analysis (3e), by Hadley Wickham, Danielle Navarro, and Thomas Lin Pedersen. [リンク]

37.1.2 練習問題

R for Data Science のもう一つの特徴は、同時に、練習問題集も、早いうちから公開されたことです。learnr というパッケージを使い、対話型(interactive)な練習問題が、Primers(入門書)として、Posit Primers(最初は、RStudio Primers)として開発されたことです。採点など、試験などとして使うことを考えると、まだ、完全とは言えませんが、学びのためには、十分の質のものだと思います。

r4ds のあとに書かれているものは、教科書の対応する章ですが、これは、第一版のもので、第二版では、必ずしも対応していませんが、残しておくことにしました。ここにリストされたものがすべて完成したのは、2022年の終わり頃かと思います。簡単に、日本語の表題を、なるべく本書の表題と近い名前にして添えておきます。

本書では、1から4と、7 に重点を置いています。

37.1.2.1 Posit Primers https://posit.cloud/learn/primers

  1. R と Tidyverse の基礎:The Basics – r4ds: Explore, I
  1. データの変形:Work with Data – r4ds: Wrangle, I
  1. データの視覚化:Visualize Data – r4ds: Explore, II
  1. Tidy Your Data – r4ds: Wrangle, II
  1. プログラミング:Iterate – r4ds: Program
  1. 関数の活用:Write Functions – r4ds: Program
  1. 再現可能性を重視したレポート:Report Reproductively – r4ds: Communicate
  1. 対話型アプリの作成:Build Interactive Web Apps

37.2 MOOCs などのオンラインコース

わたしは、MOOCs(massive open online courses)がちょうど始まった 2012年ごろ、その10年前ぐらいに、スタートした、OCW(open courseware)を勉強していたこともあり、MOOCs のコースをかなり最初の段階からいくつか、視聴していました。

データサイエンスで人気があったのは coursera でホストしていた、Johns Hopkins University が提供する、10コースからなる、JHU Data Science というコースト、edX でホストしていた、Harvard University が提供する、9コースからなる Data Science。

下にリンクと、そのコースを下にした、オンラインなど容易に手に入ると思われる教科書へのリンクをつけておきます。

どちらも、素晴らしいコースだと思いますが、個人的には、edX Harvard X のものは、アカデミック(学問的・学際的)で、coursera の方は、技術的(コンピュータ科学)のような印象を受けました。

いまでは、Data Science と検索すれば、膨大なコースが見つかりますが、個人的には、Data Science というものに、実際に触れた最初がこのにコースだったので、影響されていると思います。

また、2018年ごろからでしょうか、会社組織で、データサイエンス教育のようなものを提供するところが、続々と出てきました。DataCamp や、DataQuest などなど、たくさんあります。

MOOCs の方は、受講証明書を必要とせず、各単元の最後のテストの評価が必要なければ、基本的に無償で受けられますが、DataCamp などは、大体、最初の一コースだけ無償で、そのあとは有償になっているかと思います。

有償のコースで、アドバイスをもらったりなど、指導してもらえたり、わからないところの質問をなんでも聞けるというのは、とてもよいと思いますが、オンライン上のコミュニティでも、かなり無償でサポートが得られますし、最近では、AI による、サポートもどんどん進化していますから、個人的には、AI が家庭教師についてくれるような世界へと進んでいくのではないか、そして、基本的な部分は、それで十分ではないかと思います。

37.3 その他の参考書

個人的に、読んだもの、参考にしたものもいくつもありますが、あとは、必要に応じて、参照していただくのがよいと思います。日本語のものは、少ないですが、英語のものであっても、自動翻訳なども上手に使えば、問題なく読めると思います。

上でも書いた、Bookdown サイトと、そこにリンクされている、Archives のリンクをつけておきます。膨大な、電子書籍がリンクされていますが、それは、そこに投稿するシステムも完備しているからでもあります。みなさんも、電子書籍を書いてみませんか。

BOOKDOWN: https://bookdown.org

Archive Page: https://bookdown.org/home/archive/

日本語で書かれたものも、数は多くありませんが、いくつかあります。

37.4 統計関連

統計学についてほとんど書きませんでした。必要ではないという意味では全くありません。しかし、データサイエンスというと、まず、数学、そして、統計学を勉強して、コンピュータプログラミングも勉強してはじめて、始められるのですよね。というような声には、抗(あらが)って、書いてきました。最初から、これらで苦しまなくても、必要になった時に、少しずつ勉強していけばよいと考えているからです。

ひとつ一つステップを踏んで学んでいくよりも、まずは、データに慣れること、グラフをみて、問いを持つこと、そして、さらに、他のグラフを見ること。そう考えると、問いを持ちながら、視覚化を通して、データから特徴を読み取り、さらに問いを深めて、次の視点から、またデータを見ていくことが、何よりも大切だと考えているからです。

そのあとで、統計を勉強してみよう。プログラミングや、コンピュータサイエンスを勉強してみよう、数理モデルについて、もう少し深く知りたい、もう少し、基本的な数学も学び直してみたいとなれば、個人的にはとても嬉しいです。

37.4.1 CRAN

最後の方に、R 本体をホストし、保持してださっている、CRAN(The Comprehensive R Archive Network)をあげるのは、非常に失礼だと思いますが、CRAN にも、基本的な文書はあります。

マニュアル(The R Manuals):https://cran.r-project.org

(左の帯の Documentation の中の Manuals)

さまざまなものがリストされています。この下の方に、Contributed という項があり、そこから、Contributed Documentation という項目にリンクがあります。

(左の帯の Documentation の中の Contributed)

ここに、日本語のものも掲載されています。わたしは、全部読んだわけではありませんが、間瀬茂さんのものは、統計解析の道具として R を使う場合には、非常に有効だと思います。

  • R 入門:An Introduction to R (PDF)

  • R 言語定義:The R language definition (PDF)

  • R の拡張を書く:Writing R Extensions (PDF)

  • R のデータ取り込み/出力:R Data Import/Export (PDF)

  • R のインストールと管理:R Installation and Administration (PDF)

  • R 基本統計関数マニュアル:R Statistical Function Help Pages (PDF, 404 pages, 2009-06-05)

37.4.2 その他のオンライン文書

37.5 経済学を学ぶ人のために

わたしは、まったく、経済学を学んだことがありませんから、適切な、アドヴァイスはできませんが、一般的な教科書として次のものがあるようです。計量経済学の教科書については、データセットも、R のパッケージとして出ているようです。

  • Introductory Econometrics: A Modern Approach, 7e by Jeffrey M. Wooldridge

  • Principles of Macroeconomics by Gregory Mankiw et al (2014)

    • R Package priceR

      • Functions to aid in micro and macro economic analysis and handling of price and currency data. Includes extraction of relevant inflation and exchange rate data from World Bank API, data cleaning/parsing, and standardisation. Inflation adjustment calculations as found in Principles of Macroeconomics by Gregory Mankiw et al (2014). Current and historical end of day exchange rates for 171 currencies from the European Central Bank Statistical Data Warehouse (2020) 

      • https://CRAN.R-project.org/package=priceR

  • Macroeconomics by N. Gregory Mankiw