2 学ぶ内容 

2.1 データサイエンス入門

具体的なデータを利用して、データサインエスとは、どのようなものかをみていきながら、ここで学ぶことの概要を紹介します。オープン・パブリックデータとしては、世界銀行のデータを使います。さまざまなデータが公開され、簡単に取得できるようになっている現状も紹介します。コードの詳細には、こだわらず、データサイエンスの実際について、雰囲気を感じていただければと思います。

2.2 第一部 オープンデータ

世界のさまざまな、パブリックデータの紹介をし、ダッシュボードと呼ばれる機能を活用して、データをみることをします。

世界銀行の世界開発指標(WDI)、国際連合(UN Data)、OECD、日本のデータ(e-Stat)を外観します。

ここでは、R は使わず、サイトが提供するデータを探したり、サイト内でグラフを作成したり、データを取得するには、どのような方法があるかなどを紹介したいと思います。

これらの機関内の機能を、ホームページ閲覧ソフト(Google Chrome, Edge, Safari など)を使うだけで、かなりの情報が得られることを、経験していただければと思います。

2.3 第二部 Rの基礎

R の基本を学びます。R は、もともと、統計解析ソフトとして、開発されたもので、さまざまな分野の研究者によって利用され、また、それぞれの分野に必要な機能を、パッケージという形で開発して発展してきた言語です。非常に多くのひとたちが、開発に加わったために、痒いところに手が届く、多くの機能を、パッケージによって使うことができるようになりました。しかし、他方、統一性は十分ではなく、少し複雑な作業を実行するための、プログラミング言語としての機能も十分ではないという欠点も生じました。

わたしの理解では、それを一気に解決したのが、Hadley Wickham 等、その後、RStudio そして、現在の、Posit に引き継がれた、tidyverse というパッケージ群の開発です。他の研究者も、tidyverse の開発思想を受け継ぎ、発展させる形で、開発をしています。

そこで、R の起動とともに、最初に読み込まれる、Base R など、基本パッケージに、tidyverse を加えたものを基本として、極力、これらだけで、基本を学んでいきたいと思います。実際には、他のさまざまな便利なパッケージを使うことも、有用ですが、それは、後に回して、tidyverse を中心に学んでいきます。

tidyverse により、R は、プログラミング言語としても、一つの優秀な言語となったと思います。コーディングや、プログラミングと言われる、一つ一つのステップを構築し、それを繋げていくことを、学んでいきたいと思います。

もう一つ追加しておくのは、R Markdown の活用です。この「データサイエンスをはじめましょう」も、R Markdown の一つの形式、bookdown を使って書いています。

データサイエンスを学ぶ上で、わたしが必要かつ不可欠と考えているのが、再現性(Reproducibility)と、なにを実行しているのかの説明を同時に記述すること(Literate Programming)です。 コードとともに、その結果を、その下に出力し、かつ、そのコードの説明も加え、さらに、それによって、何がわかるかも、同時に書いていくことは、データサイエンスの核となすもので、それによって、データサイエンスの目的を達成することができると考えているからです。

データサイエンスでは、最後のコミュニケーションまでがひとつのまとまりです。他の人に聞いてもらうために発表したり、読んでもらうために、レポートを作成することも、一連の流れに加えることが必須だと思います。

指導してくださる方がいるときは、そのレポートをみてもらって、評価してもらったり、アドバイスを受けたりすることは不可欠でしょう。それには、そのレポートに、コードとともに結果も書かれており、さらに、それは、何のためで、そこから、何が得られるのかが書かれていることも必要です。

R Markdown の活用も、ともに学んでいきたいと思います。

2.4 第三部 オープンデータの活用

R を使って、第一部で概観したデータを実際に分析する手法を学びます。

国際機関などの公的機関では、さまざまなデータを提供していますが、それぞれに特徴があり、データの形式や、データ取得の方法が異なります。それらを、少しずつ説明しながら、それぞれのデータを、すでに学んだことを応用しながら、分析する実際を経験していきたいと思います。

世界銀行の、世界開発指標(World Development Indicators)が、一番整っているので、まずは、世界開発指標から学びますが、世界銀行の他のデータや、国際連合のデータ、他の国際連合の機関が提供しているデータや、経済開発協力機構(OECD)や、Our World in Data、Euro Stat などと共に、日本のデータである、e-Stat の使い方も学びたいと思います。

国際機関だけではなく、他にも、オープン・パブリックデータを提供しているところがたくさんあります。少しずつその利用方法も含めて、紹介していきたいと思います。

2.5 第四部 探索的データ分析 Exploratory Data Analysis

データを分析していくには、基本的なステップがありますが、その一つ一つのステップについて、より詳しく学びます。

これまでに、紹介できなかったいくつかの手法についても、紹介していきたいと思います。

2.6 第五部 分析例

実際の分析例を加えていきたいと思います。

2.7 付録

技術的なコメントなど、幾つかのトピックについて書いていきます。

だいたい、このような構成を考えています。

2.8 パッケージについて

R を使い始めると、追加のパッケージを使う必要が生じます。本書では、特に、tidyverse パッケージ(群)を主として使いますが、他にも、世界銀行の、世界開発指標(WDI)を読み込むための、パッケージ WDI なども使います。ここには、本書で使う、パッケージのリストを上げておきます。パッケージはイントールし、さらに、使えるように読み込む必要がありますが、その情報も少し加えておきます。

2.8.1 主として利用するパッケージ

  • tidyverse

    • 読み込み:tidyverse, readxl, stringr
  • WDI

2.8.2 特定の章で利用するパッケージ

  • tidymodels

  • devtools

    • wid-r-tool: devtools::install_github("WIDworld/wid-r-tool")

    • owidR: devtools::install_github("piersyork/owidR")

  • estatapi

  • OECD

  • eurostat

  • mapproj

  • geodata

  • rnaturalearth

  • rnaturalearthdata

  • showtext