C データサイエンスを学びませんか
鈴木寛19
2020年3月(「数学セミナー」2020年6月号に掲載)
C.1 データサイエンス? AI?
データサイエンス(Data Science)ということばを聞いたことがありますか。このことばが頻繁に使われる ようになって、まだ 10 年ほどしかたっていません。データサイエンスの定義も定まっていませんが、簡単に 表現すると「データを解析して課題を探求し、コミュニケーションを図りながら適切な解決方法を発見する科 学」、また「AI(Artificial Intelligence 人工知能)の応用を支える科学」、「コンピュータ技術とともに、統計、 数理モデル、アルゴリズムといった数学的考え方に支えられた、意思決定の科学(Decision Making Science)」 です。この広がりが、統計学という範囲を飛び越えているのでしょう。
少し古い例から始めると、手書きの郵便番号の自動読み取りで困難な「2」と「7」の識別も、コンピュータ の発達によって膨大な教師データ(Training Data,「2」か「7」かの判定が付加され正誤が判定できるデータ) を使うことが可能になり、この課題に適した数理モデルの開発・適用も進み、統計的評価によって「2」か「7」 か判断(決定)するアルゴリズム(手続き)の精度が格段に増しました。これは画像認識の一つですが、ご存 じのように、今は、顔識別もほとんど間違わないようになってきたと言われています。音声認識も、翻訳もか なり進んでいます。現在、注目を集めているものとしては、Google, Amazon から殆どすべての宣伝に取り入 れられている、リコメンダ・システム(Recommendation System)があります。皆さんも「あなたへのおす すめ」という形で、日常的に経験しているのではないでしょうか。診断・投薬管理・治療方法といった、医療 システムの開発、法律・財務、その他の相談業務、犯罪捜査、防犯システム、災害予知、防災などの分野にも 応用が始まり、国や公共機関の政策決定にも不可欠になっています。世界の資源や、貧困、食糧、環境、経済、 そして、感染症の予防や拡大防止といった問題においても、さまざまなデータを分析して、結果をわかりやす く表現することで共有し、どのような方策・施策が適切であるかを検討し、決定に生かされることが望まれる と共に、可能になっています ([1, 2])。
データサイエンスをみなさんに学んでいただきたい、三つの理由を書きます。 まず第一に AI や意思決定の背後にある科学を学ぶことが重要だからです。最近は、Buzz Word として「AI」 が頻繁に使われますが、人間とは独立なコンピュータ(機械)が考えたような表現をせず、背景にある課題と 考え方を理解するために、データサイエンスを学ぶ必要があります。考えることを科学する人工知能研究は、 さらに重要度を増していくでしょうが、AI に仕事を奪われるとか、AI がこれが一番よいと言っているのだか ら仕方がない、というような、思考停止に陥らないためにも、背後にある科学を学んでいただきたい。
二番目は、世界の変化に適切に対応するためです。一方で、インターネットの発達によって、つねに生成さ れている情報のデータを膨大に集め、それをコンピュータで扱い、解析し、新しい価値を発見することが 可 能になっています (Exporatory Data Analysis) 。他方で、皆さんの食卓に上るものも、身の回りのものも世 界中から集めてきているものですし、旅行や労働者だけでなく、人の移動が活発化し、多様な背景、考え方を 持った人との合意・共働のために、コミュニケーションがたいせつになっています。データをわかりやすく示 して、理解を共有し、課題と共に向き合うことが必要不可欠になっています (Data Visualization)。
三番目は、データや AI を適切に活用するためには、多くの人の理解と協力が必要だからです。AI は有用で あるとともに、社会への影響がとても大きいので、さまざまな問題をひきおこし始めており、その背景を理解 し、協力して向き合っていくひとが、あらゆる分野に必要だからです ([1],[4]20)。データを根拠とすることは、 数値化しやすい価値が強調され、単純な功利主義的な判断が優先される危険があり、公平・尊厳・人権・倫理・ 感情・共感・文化など、数値化が困難ではあるが、ひとにとって本質的なことを置き去りにしないため、どの ような配慮、方策、制度、法律などが必要かを、検討する必要があります ([8])。膨大な、データから判断する こと自体が、客観的で価値が高いように思われますが、おそらく人間には、理解しづらいことで、納得感、安 心感などが、失われる可能性もあり、母集団をいくつかの因子からではなくトータルにみる視点を意識して育 むことが必須です。
C.2 パブリック・データ
皆さんは、ハンス・ロスリング等が書いた「ファクトフルネス – 10 の思い込みを乗り越え、データを基 に世界を正しく見る習慣」[5] という本を読んだことがありますか? お勧めです。まだの方は、Gapminder のサイト(https://www.gapminder.org)の一番上にある 13 問からなる 10 分ほどのテストに挑戦してみ ませんか。日本語でも受けることができます。ひとは、さまざまな、先入観 (bias) にとらわれていると、ロ スリングは言っています。ロスリングの TED などでのビデオ講義もお勧めです。一つだけリンクを付けて おきます ([9])。Gapminder のサイトを見ると、バブル・チャートと呼ばれるグラフが登場し、世界の状況 を、わかりやすく見ることができます。このようにして、世界の困難な課題に取り組むことが可能になって いくのです。ロスリングはスウェーデン生まれの公衆衛生の専門家で、大学で統計学と医学を学び、モザン ビークで地域医療に従事し、リベリアなどでエボラ出血熱とも戦い、公衆衛生を学生に教えてきた人です。 2017 年になくなりましたが、ロスリングの著書には、Google と協力し公開したものが、Google Public Data (https://www.google.com/publicdata/directory?hl=en_US6[原語を英語に設定すると膨大なリストが現れ、上に Gapminder のバブルチャートが現れると思います。]) だとあります ([6])。
世界中の公的機関がパブリック・データを公開しており、誰でも、データを見ることができ、また、データ を取得して、分析し、考えることもできるようになってきています。日本の政府統計(パブリック・データ) は、e-Stat (https://www.e-stat.go.jp) にあります21。
C.3 どのようにして学びますか?
データサイエンスの学びの鍵は、データに興味を持つことだと思います。AI はどのようなデータを用いて いるのだろうか考えたり、ニュースなどで数値データやグラフに出会ったら、どのようにして得られたデータ なのか、データやグラフから読み取れることはなにか、グラフはわかりやすく表示されているか、同じような データからどのような関連する情報が得られるかを考えてみてください。公開されている元データを探して見 てみるとよいでしょう。最近は、データの公開が進んでいるだけでなく、ダッシュボード22といって、データ の項目を操作してグラフ表示の仕方を選ぶことができるものも増えています。興味を持った項目について、グラフを作成してデータを分析してみたいとなるとよいですね。
データサイエンスは、誰でも、インターネットネット上で、殆ど無償で学ぶことができます23 。そのほんの 一部を紹介します。キーワードは、Free–Open–Online24 です。データサイエンスは、理論を学ぶより、実証 的 (Empirical) な学びですので、実際にデータに触れることがたいせつです。
データの分析には、Excel など、市販の表計算ソフトを利用することも可能ですが、R や、python という 無償のフリーソフト25が一般的になっています。鍵は、操作の再現可能性(Reproducible)とプログラムを理 解できるように記述すること (Literate Programming) です。チーム内や、世界の人々と共有・協力するため には、常に、再現と利用が可能な形式で結果を提供することが重要だからです。プログラミング経験者は、最 初から、python で学ぶことも可能ですが、まずは、統計分析のために開発された R がお勧めです。
R は、インターネット上からダウンロードして、自分のコンピュータにインストールして使うことができま すし、使いやすくするための、RStudio IDE26 も同様に、無償で提供されています。しかし、まず、インス トールしないで使える RStudio.cloud の紹介をします。インターネットにつながっていればどこでも同じ環境 で使えますので、大学や高等学校だけでなく、自宅や公立の図書館などからでもインターネットに接続できれ ば利用が可能です。
まず、RStudio.cloud のアカウントを取得します。http://RStudio.cloud にアクセスし、右上の Sign Up を選択し、メール・アドレスを入力し、パスワードを決めます。Google などのアカウントと連携することも 可能です。Project を一つ作りましょう。New Project をクリックして、名前を決めてください。少し待つと、 RStudio 画面に変わります。ここまでで、第一ステップ完了です。
次に、上の メニューの Tools から、Install Packages … を選び、swirl と入れてください。それから、Console と書いてあるところに、library(swirl) といれ、Enter(または改行)。さらに、swirl() として、Enter です。指 示に従うと、R の基本を学ぶことができます。英語であることに、抵抗がある方もいると思いますが、それほ ど難しくはありません。また、https://foods4all.github.io に日本語の説明がありますから、是非、挑戦 してください。一般の人が学ぶデータサイエンスは、日本では始まったばかりですが、英語ではすばらしいサ イトがたくさんあります。英語での学びを始めることで、あなたの世界が広がりますよ。
次に、RStudio.cloud の左上の三本線を選択すると、Learn として、学びのメニューがあります。Cheat Sheets(早見表)もあり、とても便利です。Learn の下にある、Primer(入門書)を選択して The Basic(基 本)を学んでみてください。雰囲気がわかります。RStudio.cloud を終了するときは、右上の名前のところに ある、Log Out を選択します。
これで基本は終了です。もっと学びたい人のために、本を 2 冊紹介します。1 冊目は「R ではじめるデータ サイエンス」([3]) です。この本の原著は、インターネット上に無償で公開されています。tidyverse という論 理的に構成された パッケージ集を活用した R によるデータサイエンスの全体像がわかります。英語であって も、インターネット上のものが便利に感じてくると思います。データサイエンスの英語はあまり難しくありま せんし、プログラムを、コピー・ペーストして使うことも可能です。2 冊目は「データサイエンス講義」([2]) です。社会においてデータサイエンスがどのように使われているかについて書かれています。
コースとしてしっかり学びたい人には、MOOCs (Massive Open Online Courses) がお勧めです。日本語 の JMOOC(https://www.jmooc.jp)にもデータサイエンスのコースがいくつか出ています。わたしのお 勧めは、HarvardX Data Science [7] です。9 コースのシリーズで一通り学ぶことができます。最初の 2 コース27 を学べば、入門終了です。このコースに、正式に登録して修了証を取得するのは有償ですが、無償での聴講(Audit)でも、実際に、R のプログラミングの演習ができ、教科書も、ビデオも何度でも見ることが可能です。ビデオ講義の原稿 (Script) も画面の右に流れますし、これも含めすべてダウンロード可能です。わからなくなったら、止めて単語を調べたり、Google などで翻訳をみることもできます。MOOCs の他のコースの聴講は、いろいろと制限が付くものもありますが、皆さんにあったものを見つけることができるとよいですね。
https://foods4all.github.io に、少し詳しく紹介してありますので、参考にして下さい。わたしも Free-Open-Online のものを活用し勉強をはじめて一年になったところです。一緒に学びませんか。
C.4 おわりに
データサイエンスは、数学にはない要素をいくつも含んでいますが、数学に興味をもち、勉強をしているひとにとっては抵抗なく学ぶことができると思います。必要に応じて少しずつ学んでいけばよいので、まず、数学や統計をあるレベルまで学ばないと、データサイエンスを学べないことはありません。データサイエンスの世界に飛び込んでみませんか。
専門的に学んでいくと、統計学や、様々な数学が必要になっていきますが、大学一年生で学ぶ、線形代数と 微分積分の初歩を知っていれば、しばらくは十分です28。自分でデータから考えてみようという意欲がたいせつです。ニュースでグラフなどを見たら、その元のデータを探して、いろいろグラフを作ってみると勉強になりますよ。データの見方(データからわかる事実)はたくさんあり、報道されているのは、そのほんの一部分ですから。
わたしは、他者と協力し、データを活用して課題と向き合う社会の責任ある構成員となることが、データサイエンスを学ぶまず第一の目的であると思います。
あなたも、データサイエンスを学びませんか。
参考文献
[1]「アルゴリズムが世界を支配する」Christopher Steiner 著、永峯涼訳、角川 書店、2013.
[2]「データサイエンス講義」Rachel Schutt, Cathy O’Neil 著、瀬戸山雅人他訳、オライリー・ジャパン、2014.
[3]「R ではじめるデータサイエンス」Hadley Wickham 他著、大橋真也他訳 、オライリージャパン、2017. 原著 ”R for Data Science” (https://r4ds.had.co.nz) および Jeffrey B. Arnold による 練習問題の解答 (https://jrnold.github.io/r4ds-exercise-solutions/) はオンラインで公開されています。
[4]「あなたを支配し、社会を破壊する、AI・ビッグデータの罠」Cathy O’Neil 著、久保尚子訳、インターシフト、2018 年.
[5]「Factfulness(ファクトフルネス)– 10 の思い込みを乗り越え、データを基に世界を正しく見る習慣」Hans Rosling 他著、上杉周作・関美和訳、日経 BP、2019.
[6]「私はこうして世界を理解できるようになった」Hans Rosling 他著、枇谷玲子訳、青土社、2019.
[7] データサイエンスのオンライン・コース:edX Professional Certificate in Data Science: https://online-learning.harvard.edu/series/professional-certificate-data-science
[8] データサイエンス倫理のオンライン・コース:edX Data Science Ethics: https://www.edx.org/course/data-science-ethics
[9] Hans Rosling による TED Talk(日本語字幕付き): https://www.ted.com/talks/hans_rosling_the_best_stats_you_ve_ever_seen?language=ja