6 オープンデータ
6.1 概要
すでに、オープンデータについて、説明をし、その例として、世界銀行の世界開発指標(World Development Indicators (WDI))の説明をし、その指標の一つである、GDP(Gross Domestic Product 国内総生産)を例にとって、はじめてのデータサイエンスというタイトルで、データサイエンスの実際を見ました。
第一部では、世界銀行や、経済協力開発機構(OECD)、国際連合(United Nations)などの、国際機関のオープンデータや、日本のデータとして、政府機関統計(e-Stat)の紹介をします。
さらに、実際に、それぞれのサイトのオープンデータを、ダッシュボード(dashboard)呼ばれる対話型(Interactive)の機能の使い方を紹介しながら、データを見ていきます。
また、実際のデータの取得(ダウンロード)にも触れ、それぞれの期間が提供する API(アプリケーションプログラムインターフェース)の活用についても、簡単に触れていきます。
第二部で、R を使ったデータサイエンスについて学びますが、その例においても、いくつかのオープンデータを用いる機会がありますので、第一部は、その準備としての位置付けです。オープンデータの分析のより詳しい説明は、第三部で行います。
R を使ったデータサイエンスを、早く学びたい方は、この第一部をスキップして、第二部から読んでくださって構いません。しかし、みなさんの中には、R を使うところまでできるかは自信がないけれど、実際のオープンデータを見て、データサイエンスではどのようなことを考えるのかを体験してみたいという方もおられると思い、第一部を書いています。
また、実際に、オープンデータを活用して、ある課題について調べるときには、基本的なオープンデータについての知識は有用です。どこに、そのようなデータがあるかを見つけることがたいせつであるとともに、データサイエンスはなんと言っても、理論ではなく、実証的なものですから、実際のデータに触れながら、学んでいくのがたいせつだと考えているからです。
第一部の学びを通して、こんなふうに、データがたくさん、公開されているのか、と、そんな感触を持っていただければと思います。
6.2 さまざまな機関のオープンデータ
すでに少しだけ紹介した世界銀行以外にも、多くの機関がデータを提供しています。いずれも、使いやすくなってきています。少しずつ、いくつかのデータベースに、アクセスして、できれば、API の利用の仕方も、習得して、データを調べることに少しずつ慣れていっていただければと思います。
下のリストは、私が個人的に、何度か使ったことのある、データベースです。「データサイエンスをはじめましょう」でも、少しずつ消化していきます。他にも、たくさんのデータベースがありますので、ぜひ、調べてみてください。
- 国際連合 UNdata
- 経済協力開発機構 OECD data、
- 世界格差データベース(World Inequality Database)WID、
- 欧州連合の統計局 Eurostat、
- データで見る私たちの世界 Our World in Data
6.2.2 持続的開発目標(SDGs) データ
持続的開発目標(Sustainable Development Goals (SDGs))は、皆さんもご存知かと思います。2015年に国際連合で定められ、2030年までの達成目標が掲げられています。様々なサイトがありますから、ご存知かと思いますが、SGDs は、17の分野に分かれており、それぞれにさらに細かい分類があり、その一つ一つに、数値目標が掲げられています。数値目標だけに、依存することは、十分ではないかもしれませんが、少なくとも、その数値目標の達成を検証するために、データが公開されています。
自分が興味をもっている課題に絞って、各サイトでどのようなデータが提供されているかをみていくのもよいと思います。
- 世界銀行:https://databank.worldbank.org/source/sustainable-development-goals-(sdgs)
- 国連:https://unstats.un.org/sdgs/dataportal/database
- データで見る私たちの世界:Our World in Data SGD Tracker: https://sdg-tracker.org/
- SDG Index: https://dashboards.sdgindex.org/map
6.3 オープンデータについて
オープンデータについては、すでに、世界銀行の定義をご紹介しました。パブリックデータをいう言葉も使われます。それらの違いなども含めて、AI に聞いてみましょう。
Q. オープンデータ(Open Data)とか、パブリックデータ(Public Data)と言われるものは、どのようなものですか。定義のようなものと、いくつかの例、さらに、重要視されてきている背景を説明してください。
GPT4. (2023.8.15)
オープンデータ(Open Data)とは、誰でも自由に利用、再配布、再利用することができ、制限がない、または限定的な制限だけが存在するデータを指します。オープンデータは一般的には無償で提供され、機械可読形式(たとえばCSV、JSONなど)で利用可能であり、再利用のためのライセンスが明確にされています。
一方、パブリックデータ(Public Data)は公共の手段で取得されたデータ、または公共の利益のために公開されるべきデータを指します。これは政府や公共機関、研究機関などが収集したデータで、しばしば公共の利益のために公開されます。
オープンデータとパブリックデータの主な違いは、オープンデータが再利用と再配布の観点から「オープン」であることを強調するのに対し、パブリックデータは単に公開されているだけで、再利用や再配布については必ずしも明示されていないことです。
例えば、以下のようなものがあります:
気象データ: 天気予報、気温、風向、風速、降水量など
交通データ: 交通渋滞、駐車場の利用状況、公共交通機関の運行状況など
統計データ: 人口、雇用、健康、教育などのデータ
環境データ: 汚染レベル、森林破壊、気候変動などのデータ
地理データ: 地図、土地利用、地質学的情報など
オープンデータとパブリックデータが重要視されてきた背景には、以下の要素があります:
透明性と説明責任: データが公開されることで、政府や企業の行動についての透明性が高まり、説明責任が強化されます。
イノベーションと経済的価値: データが自由に利用できることで、新たなビジネスモデルや製品、サービスの開発が促進され、経済的価値が創出されます。
市民参加: データへのアクセスが提供されることで、市民が社会的・政治的な決定プロセスに参加する機会が増えます。
社会的・環境的課題の解決: 大量のデータを解析することで、社会的・環境的な課題をより良く理解し、解決策を見つけることが可能になります。
以上のように、オープンデータとパブリックデータは、透明性、説明責任、イノベーション、市民参加、社会的・環境的課題の解決などの観点から重要性を増しています。
6.3.1 オープンデータの未来
みなさんは、どのように考えますか。まだ、発展途上で、特に、パブリックデータについては、国によって、考え方も一定ではないように見受けられますが、これから、どのような世界を目指していくのか、データサイエンスは、どのような目的のために必要なのか。みなさんは、なんのために勉強しているのか、上の一つ一つの項目をもとに、周囲のみなさん、友人などと、ディスカッションをしながら、考えていただければと思います。
いずれもたいせつな項目だと思いますが、項目3の市民参加は、公開されているデータをわたしたち市民が利用して初めて可能になることです。項目4の、社会的・環境的課題の解決には、私たち市民も責任をもって、取り組むべきだということが基盤にあるのだと思います。みなさんは、どう考えられますか。
6.4 ダッシュボード
はじめて、オープンデータを利用するときには、対話型のダッシュボードは、助けとなります。ダッシュボードとはどのようなものか、AI に説明してもらいましょう。
Q. データを対話的にみたり視覚化したりする、ダッシュボード(dashboard)について説明してください。
ChatGPT (2023.08.15)
ダッシュボード(dashboard)は、情報やデータを一元化し、対話的に表示・分析・視覚化できるインタラクティブなユーザーインターフェースです。主にビジネスや組織内で使用され、重要な指標や情報をリアルタイムに監視・分析するために利用されます。
ダッシュボードは、さまざまなデータソースからの情報を収集し、それを一つの場所にまとめて表示します。これにより、膨大なデータを迅速に把握し、傾向やパターンを特定することが可能になります。例えば、売上データ、顧客の統計情報、ウェブ解析データ、ソーシャルメディアの指標など、さまざまなデータソースからの情報を一つのダッシュボードに表示することができます。
ダッシュボードは、視覚化ツールを使用してデータをグラフやチャート、表などの形式で表示します。これにより、データを直感的に理解しやすくし、視覚的なパターンや相関関係を把握することができます。例えば、売上の推移を折れ線グラフで表示したり、地域別の売上を地図上に表示したりすることができます。
ダッシュボードは、利用者が必要な情報に素早くアクセスできるように設計されています。ユーザーは、ダッシュボード上の要素をクリックしたり、フィルタを適用したり、グラフをズームしたりすることで、詳細な情報を取得したり特定の視点でデータを分析したりすることができます。
また、ダッシュボードはリアルタイムな情報の監視にも利用されます。データソースが更新されるたびに、ダッシュボード上の情報も自動的に更新されます。これにより、組織内の関係者が最新の情報にアクセスし、迅速な意思決定を行うことができます。
ダッシュボードは、情報の可視化と分析によって、効率的なデータ駆動型の意思決定を支援する役割を果たします。組織内のさまざまなレベルの利用者が、ビジネスのパフォーマンスを把握し、問題や機会を特定し、戦略やアクションプランを立案するために活用します。
Q. 例や、ダッシュボードのサイトを教えてください。
ChatGPT (2023.8.15)
もちろんです!以下にいくつかのダッシュボードの例と、一般的に使用されるいくつかのダッシュボードサイトをご紹介します。
ダッシュボードの例:
Google Analytics: ウェブサイトのトラフィックやユーザー行動などの情報をリアルタイムに監視・視覚化するためのダッシュボードです。
Salesforce: セールスや顧客関連のデータを統合し、ビジネスのパフォーマンスを追跡するためのダッシュボードです。
Tableau: データの視覚化と分析に特化したダッシュボード作成ツールであり、さまざまな業界で利用されています。
ダッシュボードのサイト:
Klipfolio (https://www.klipfolio.com/)
Geckoboard (https://www.geckoboard.com/)
DashThis (https://dashthis.com/)
Databox (https://databox.com/)
Microsoft Power BI (https://powerbi.microsoft.com/)
これらのサイトでは、ダッシュボード作成ツールやサービスを利用して、カスタムのダッシュボードを作成することができます。それぞれのサイトには、詳細な情報やデモが提供されている場合もありますので、ぜひご覧ください。
上で、ダッシュボードのサイトとあるのは、これらのサイトのツールを使って、ダッシュボードを作ることができるというものです。少し、ダッシュボードの利用に慣れてきたら、挑戦してみてはいかがでしょうか。
6.5 API を利用したパッケージ
それぞれのオープンデータを検索したり、読み込んだりするための R のパッケージの紹介をします。上に書いたように、第二部で利用するためです。詳しい使い方は、第三部で紹介します。
基本的には、以下の項目について紹介します。
R の(公式)パッケージサイト:パッケージも含め、R の管理をしている CRAN の公式サイトの情報です。この下の情報も、ほとんどの場合、このリンク先に掲載されています。
資料(Materials): README(はじめにお読みください)などで、基本情報が書かれています。
マニュアル(Manual):利用者用説明書です。パッケージで利用可能な関数(命令、データ)などの情報がすべて書かれてあります。それぞれの関数(命令)に関しては、R Studio 内の Help(ヘルプ検索窓)からも利用可能です。
使い方の例(Vignette):開発者のサイト(GitHub(バージョン管理システムの支援サイト)など)にある場合もありますが、最近は、公式パッケージサイトに、Vignette として使い方の例が掲載されている場合が増えてきています。すべて理解しようとせず、使い方の例からまずはみてみることが有効です