37 参考文献
参考文献とともに、おすすめのサイトなどについても、個人的に、学ばせせていただあいたものを中心に書いていきます。
37.1 教科書
すでに何度かご紹介していますが、Tidyverse の中心的開発者でもある、Hadley Wickham 等の書いた、次の本に勝るものは、ないと個人的には考えています。
R for Data Science(r4ds と略): https://r4ds.hadley.nz
詳細はリンク先をみていたければと思いますが、これを書いている段階で、第二版(2e)がちょうど出版、公開されました。わたしは、第一版で最初勉強し、この文書を準備し始めた頃には、第二版の暫定版が公開されていましたから、そちらは、全てではありませんが、読ませていただき、参考にさせていただきました。多くの部分が、この本に則っています。
第一版も、bookdown パッケージで書かれていますが、この書が、bookdown で書かれ、公開されたことから、他のさまざまな、データサイエンスの教科書も、たとえば、bookdown の Archive のようなところに公開されて、活用されてきたことが、R のデータサイエンスへの利用が、飛躍的に進んだ原因であると同時に、RMarkdown や、bookdown の開発と相まって、このような、Public Domain での出版が進んだ原因だと、個人的には確信しており、個人ではなく、RStudio Co.(現在は、Posit Co.)という会社組織で進んで行ったことが、安定度も含めて、大きな意味があったと思っています。その意味でも、世界を変えた一冊だと考えています。
一つだけコメントさせていただければ、印刷体だけでなく、Public Domain での出版ということで、プロの翻訳家が手を出さず、日本語訳が出なかったことが、日本での知名度が上がらなかった原因であるとも思います。しかし、Web Browser(ホームページ閲覧ソフト)の自動翻訳技術も飛躍的に進歩し(今後ますます進歩するでしょうから)、Web 上に公開することで、このような技術書は、絶対的ではないという状況になったことも、大きな変化かなと考えています。そのような学び方の改革をもご紹介し、その橋渡しができればと願って始めたのがこの文書のプロジェクトでもあります。
37.1.1 視覚化の教科書
良い本がたくさんでいます。まずは、Hadley Wickham の最初の、ggplot2 の本の第三版が、著者も増えていますが、執筆中として、電子版が公開されています。
- ggplot2: Elegant Graphics for Data Analysis (3e), by Hadley Wickham, Danielle Navarro, and Thomas Lin Pedersen. [リンク]
37.1.2 練習問題
R for Data Science のもう一つの特徴は、同時に、練習問題集も、早いうちから公開されたことです。learnr というパッケージを使い、対話型(interactive)な練習問題が、Primers(入門書)として、Posit Primers(最初は、RStudio Primers)として開発されたことです。採点など、試験などとして使うことを考えると、まだ、完全とは言えませんが、学びのためには、十分の質のものだと思います。
r4ds のあとに書かれているものは、教科書の対応する章ですが、これは、第一版のもので、第二版では、必ずしも対応していませんが、残しておくことにしました。ここにリストされたものがすべて完成したのは、2022年の終わり頃かと思います。簡単に、日本語の表題を、なるべく本書の表題と近い名前にして添えておきます。
本書では、1から4と、7 に重点を置いています。
37.1.2.1 Posit Primers https://posit.cloud/learn/primers
- R と Tidyverse の基礎:The Basics – r4ds: Explore, I
視覚化の基礎:Visualization Basics
プログラミング基礎:Programming Basics
- データの変形:Work with Data – r4ds: Wrangle, I
表の形式 Tibble:Working with Tibbles
dplyr によるデータの抽出:Isolating Data with dplyr
dplyr によるデータの変形:Deriving Information with dplyr
- データの視覚化:Visualize Data – r4ds: Explore, II
探索的データ分析:Exploratory Data Analysis
棒グラフ:Bar Charts
度数分布:Histograms
箱ひげ図:Boxplots and Counts
散布図:Scatterplots
折れ線グラフと地図:Line plots and maps
点データの重なり:Overplotting
さまざまな調整:Customize plots
- Tidy Your Data – r4ds: Wrangle, II
データ表の行と列の交換:Reshape Data - a bit old
行または列の結合と分離:Separate and Unite
二つのデータ表の結合:Join Data Sets
- プログラミング:Iterate – r4ds: Program
繰り返し処理入門:Introduction to Iteration
同時変換:Map
表などの同時変換:Map Shortcut
ヴェクトルの変換応用:Multiple Vectors
応用編:List Columns
- 関数の活用:Write Functions – r4ds: Program
関数の基礎:Function Basics
関数の書き方:How to Write a Function
引数の対応:Argument Matching
環境と適用範囲:Environments and Scoping
条件分岐:Control Flow
複雑な条件分岐:Advanced Control Flow
R によける再帰型プログラム:Loops in R
- 再現可能性を重視したレポート:Report Reproductively – r4ds: Communicate
- ビデオや説明へのリンク:Link to Videos and Explanations
- 対話型アプリの作成:Build Interactive Web Apps
37.2 MOOCs などのオンラインコース
わたしは、MOOCs(massive open online courses)がちょうど始まった 2012年ごろ、その10年前ぐらいに、スタートした、OCW(open courseware)を勉強していたこともあり、MOOCs のコースをかなり最初の段階からいくつか、視聴していました。
データサイエンスで人気があったのは coursera でホストしていた、Johns Hopkins University が提供する、10コースからなる、JHU Data Science というコースト、edX でホストしていた、Harvard University が提供する、9コースからなる Data Science。
下にリンクと、そのコースを下にした、オンラインなど容易に手に入ると思われる教科書へのリンクをつけておきます。
-
edX: HarvardX Data Science - 9 courses. Textbook:
“Introduction to Data Science” by Rafael A. Irizarry.
Free Online Book by Rafael A. Irizarry.
-
coursera: JHU Data Science - 10 courses. List of Companion Books:
“R Programming for Data Science” by Roger Peng.
Free Online Book by Roger Peng.
“Exploratory Data Analysis with R” by Roger Peng.
Free online Book by Roger Peng.
“Report Writing for Data Science in R” by Roger Peng
“Statistical Inference for Data Science” by Brian Caffo
“Regression Modeling for Data Science in R” by Brian Caffo
どちらも、素晴らしいコースだと思いますが、個人的には、edX Harvard X のものは、アカデミック(学問的・学際的)で、coursera の方は、技術的(コンピュータ科学)のような印象を受けました。
いまでは、Data Science と検索すれば、膨大なコースが見つかりますが、個人的には、Data Science というものに、実際に触れた最初がこのにコースだったので、影響されていると思います。
また、2018年ごろからでしょうか、会社組織で、データサイエンス教育のようなものを提供するところが、続々と出てきました。DataCamp や、DataQuest などなど、たくさんあります。
MOOCs の方は、受講証明書を必要とせず、各単元の最後のテストの評価が必要なければ、基本的に無償で受けられますが、DataCamp などは、大体、最初の一コースだけ無償で、そのあとは有償になっているかと思います。
有償のコースで、アドバイスをもらったりなど、指導してもらえたり、わからないところの質問をなんでも聞けるというのは、とてもよいと思いますが、オンライン上のコミュニティでも、かなり無償でサポートが得られますし、最近では、AI による、サポートもどんどん進化していますから、個人的には、AI が家庭教師についてくれるような世界へと進んでいくのではないか、そして、基本的な部分は、それで十分ではないかと思います。
37.3 その他の参考書
個人的に、読んだもの、参考にしたものもいくつもありますが、あとは、必要に応じて、参照していただくのがよいと思います。日本語のものは、少ないですが、英語のものであっても、自動翻訳なども上手に使えば、問題なく読めると思います。
上でも書いた、Bookdown サイトと、そこにリンクされている、Archives のリンクをつけておきます。膨大な、電子書籍がリンクされていますが、それは、そこに投稿するシステムも完備しているからでもあります。みなさんも、電子書籍を書いてみませんか。
BOOKDOWN: https://bookdown.org
Archive Page: https://bookdown.org/home/archive/
日本語で書かれたものも、数は多くありませんが、いくつかあります。
37.4 統計関連
統計学についてほとんど書きませんでした。必要ではないという意味では全くありません。しかし、データサイエンスというと、まず、数学、そして、統計学を勉強して、コンピュータプログラミングも勉強してはじめて、始められるのですよね。というような声には、抗(あらが)って、書いてきました。最初から、これらで苦しまなくても、必要になった時に、少しずつ勉強していけばよいと考えているからです。
ひとつ一つステップを踏んで学んでいくよりも、まずは、データに慣れること、グラフをみて、問いを持つこと、そして、さらに、他のグラフを見ること。そう考えると、問いを持ちながら、視覚化を通して、データから特徴を読み取り、さらに問いを深めて、次の視点から、またデータを見ていくことが、何よりも大切だと考えているからです。
そのあとで、統計を勉強してみよう。プログラミングや、コンピュータサイエンスを勉強してみよう、数理モデルについて、もう少し深く知りたい、もう少し、基本的な数学も学び直してみたいとなれば、個人的にはとても嬉しいです。
37.4.1 CRAN
最後の方に、R 本体をホストし、保持してださっている、CRAN(The Comprehensive R Archive Network)をあげるのは、非常に失礼だと思いますが、CRAN にも、基本的な文書はあります。
マニュアル(The R Manuals):https://cran.r-project.org
(左の帯の Documentation の中の Manuals)
さまざまなものがリストされています。この下の方に、Contributed という項があり、そこから、Contributed Documentation という項目にリンクがあります。
(左の帯の Documentation の中の Contributed)
ここに、日本語のものも掲載されています。わたしは、全部読んだわけではありませんが、間瀬茂さんのものは、統計解析の道具として R を使う場合には、非常に有効だと思います。
37.4.2 その他のオンライン文書
-
BellCurve 統計WEB:https://bellcurve.jp/statistics/
37.5 経済学を学ぶ人のために
わたしは、まったく、経済学を学んだことがありませんから、適切な、アドヴァイスはできませんが、一般的な教科書として次のものがあるようです。計量経済学の教科書については、データセットも、R のパッケージとして出ているようです。
-
Introductory Econometrics: A Modern Approach, 7e by Jeffrey M. Wooldridge
-
R Package woodridge
wooldridge: 115 Data Sets from “Introductory Econometrics: A Modern Approach, 7e” by Jeffrey M. Wooldridge
-
-
Principles of Macroeconomics by Gregory Mankiw et al (2014)
-
R Package priceR
Functions to aid in micro and macro economic analysis and handling of price and currency data. Includes extraction of relevant inflation and exchange rate data from World Bank API, data cleaning/parsing, and standardisation. Inflation adjustment calculations as found in Principles of Macroeconomics by Gregory Mankiw et al (2014). Current and historical end of day exchange rates for 171 currencies from the European Central Bank Statistical Data Warehouse (2020)
-
Macroeconomics by N. Gregory Mankiw