1 はじめに
1.1 データサイエンスとは
データサイエンスとはどのようなものでしょうか。いくつかの定義を紹介しますが、新しい分野で、非常に広い範囲の人たちが、データサイエンスに関係していることから、誰でもが受け入れられる定義することは、難しいように思います。
簡単に表現すると「データを活用するための科学」かなと、わたしは、考えています。皆さんが、これから、データサイエンスを学びながら、自分だったらどのように表現するか、考えてください。
「データを活用するための科学」には、三つのことばが含まれています。「データ」「活用するため」「科学」。一つ一つ、厳密な定義は難しいですが、データは、これから、皆さんがたくさん出会いますので、それまで置いておきましょう。「活用するため」と書きましたが、課題をみつけたり、その解決のための意思決定の根拠をさがしたりということでしょうか。分野は、さまざまですから、表現もまちまちかもしれません。最後に「科学」これも、簡単ではありませんが、わたしは、二つのことが大切だと考えています。一つは、反証可能性(falsifiability1)です。もう一つは、再現可能性(reproducibility2)です。反証可能性は、自分はそう信じるというような主観ではなく、正しいかどうかチェックすることができるという意味です。再現可能性は大体理解できると思いますが、データから得られる事実を、他のひとが操作をしても、同じ結果が得られるということです。そのためには、その「操作」が明確になっており、合理性も確保されていなければいけませんね。
これら二つの性質は、「活用するため」に、共通の客観的な基盤を保証するということだと思います。データサイエンスは、根拠を明確にした議論(evidence based, fact based)のために、欠かせないことで、多様な価値観の多様なひとたちが合意して課題に立ち向かっていくためには、必要不可欠なことだと思います。そのいみでも、これから、データサイエンスは、ますます、重要度がましていくと思います。
もう少し、踏み込んで、データサイエンスについて書いてみましょう。実際に、どのような作業が重視されているのかも、含まれています。
Data Science: データ (Data) を活用して課題を発見・探求し、適切な解決策を探る意思決定のための科学(Decision Science)で、 エンピリカル(Empirical Study)すなわち、理論ではなく、実証性を特徴とする。 データから得られる特徴を表示するとともに、数理モデルを適用し・機械学習などで評価し・アルゴリズムを策定する数理的思考を通して得られた結果を、可視化などによってコミュニケーションをおこない、共有し、他者の意見を聞き理解する努力をしながら、さらに課題について、あらたにデータを活用して考え、検証し、適切な解決策がもたらす新たな課題も予測しながら、調整をはかること。
上に書いたのは、ひとつの表現ですが、AI3 に、表題の「データサイエンスとは」と聞いてみると、次のような答えをしてくれました。
ChatGPT (2023.6.3)
データサイエンス(Data Science)は、データを解析し、洞察を得るための科学的な手法やツールの開発と応用を含む、多様なスキルセットを組み合わせた領域です。データサイエンスは、統計学、機械学習、データマイニング、データ可視化などの技術や手法を利用して、大量のデータからパターンやトレンドを抽出し、意思決定に役立つ洞察を導き出すことを目指します。
データサイエンスのプロセスは、データの収集、前処理、分析、モデリング、評価、展開などのステップで構成されます。最初に、関連するデータを収集し、必要な形式に整理するために前処理を行います。次に、統計的な手法や機械学習アルゴリズムを使用してデータを分析し、予測モデルやパターンを発見します。モデルのパフォーマンスを評価し、必要に応じて改善を行い、最終的に洞察をビジネスや科学の現場に適用することが目標です。
データサイエンスは、さまざまな分野で活用されています。例えば、ビジネス分野では、マーケティングキャンペーンの最適化、顧客セグメンテーション、需要予測などに利用されます。医療分野では、病気の診断や治療計画の最適化、新薬の開発などに応用されます。また、交通や都市計画、環境保護、金融など、さまざまな領域でデータサイエンスの手法が活用されています。
データサイエンスには、数学や統計学、プログラミング、データベース管理、機械学習、ビジュアル化などの幅広いスキルが必要です。また、データの解釈やビジネス理解、コミュニケーション能力も重要な要素です。データサイエンティストやデータアナリストは、これらのスキルを駆使して、データを活用し、意思決定のサポートや新たな知見の発見に貢献します。
ちょっと日本語がぎこちない感じもするので、英語での問いと答えも書いておきましょう。
What is datascience?
Data science is a multidisciplinary field that involves using scientific methods and tools to analyze data and extract insights. It encompasses a wide range of skills, including statistics, machine learning, data mining, and data visualization, to explore and understand complex data sets.
At its core, data science involves collecting, organizing, cleaning, and processing large volumes of data to uncover patterns, trends, and correlations. It applies various statistical techniques and algorithms to gain meaningful insights and make informed decisions. Data scientists employ exploratory data analysis, hypothesis testing, and predictive modeling to extract valuable information from data and generate actionable recommendations.
Data science finds applications in numerous industries and domains. It is widely used in business for market research, customer segmentation, demand forecasting, and personalized recommendations. In healthcare, data science aids in disease diagnosis, treatment optimization, and drug discovery. Other areas where data science is applied include transportation and urban planning, environmental conservation, finance, and social sciences.
To excel in data science, one needs a solid foundation in mathematics, statistics, programming, and data manipulation. Proficiency in programming languages such as Python or R is crucial for data manipulation and building models. Strong analytical skills, critical thinking, and the ability to communicate findings effectively are also essential for data scientists.
Data science is a rapidly evolving field, driven by advancements in technology and the increasing availability of data. It plays a crucial role in leveraging data assets to gain insights and make data-driven decisions in various industries.
学際的分野(multidisciplinary field)という言葉も使われています。かなりの広がりをもった分野です。
1.1.1 なぜ、データサイエンスが最近注目されているのか
では、なぜ、最近、急に、データサイエンスが注目されるようになったのでしょうか。最初にも少し書きましたし、みなさんが、少しずつ学びながら、考えていただくのが一番よいと思いますが、いくつか理由があると思います。
個人的には、インターネットの普及や、さまざまなセンサーの普及にも助けられて、膨大なデータが得られるようになり、さらに、コンピュータの進化により、大きなデータであっても、それらを、扱うことができるようになったこと。それによって、複雑な問題であっても、その解決と意思決定に関して、データを使って根拠を明確にした(evidence based)議論を支援することが可能になったことだと考えています。
付け加えておかないといけないと考えていることがもう一つあります。それは、問題解決と書きましたが、課題と向き合うという表現でもよいと思います。これまでは、因果関係が単純な課題については、根拠を示して、ある程度議論できましたが、実際の世の中の問題は、非常に多くの要素が相互に絡み合っており、それらを、調整すると、結果にも、さまざまな変化が生じるため、調整も非常に困難だと言うことも挙げられると思います。
それだけ複雑な課題と向き合うには、データを丁寧にみることがが必要で、その中で、さまざまな指標に関して評価値が高いものを選択することが可能になって来たと言うことです。
そのことが、もう一歩進んで、AI(Artificial Intelligence 人工知能)を支える技術に使われています。ここで使った、ChatGPT の GPT は、Generative Pre-trained Transformer の略ですが、LLM(Large Language Model)によって、自然なことばを生成できるような技術が実用段階に入っています。たとえば、「データサイエンスが最近注目されているのは…」とすると、この後に続く言葉として、評価値が高いものを、選択してれる。それを、さらに、調整して、応答することが可能になっているのです。
少し長いですが、もう少し、踏み込んで説明していますので、ChatGPT の応答を下に挙げておきましょう。
ChatGPT (2023.6.3)
データサイエンスが最近注目されている理由は、以下の要素によるものです。
ビッグデータの増加: 近年、デジタル技術の進歩により、膨大な量のデータが生成されるようになりました。ウェブサイトのアクセスログ、ソーシャルメディアの投稿、センサーデータ、トランザクションデータなど、多様なソースから大量のデータが利用可能です。データサイエンスは、これらのビッグデータを活用して洞察を得ることができるため、需要が高まっています。
技術の進歩: データサイエンスを支える技術の進歩も、その注目を高めています。クラウドコンピューティングの発展やオープンソースのツールとライブラリの普及により、データの収集、処理、分析が容易になりました。さらに、機械学習や深層学習のアルゴリズムの改善や高速化も進んでおり、より高度な予測モデルやパターンの抽出が可能になっています。
ビジネス価値の認識: データは企業にとって貴重な資産であり、データを活用することで競争優位を得ることができます。データサイエンスを活用することで、マーケットのニーズやトレンドを理解し、効果的なマーケティング戦略を立てることができます。顧客行動の予測やセグメンテーションを行い、顧客満足度や収益性を向上させることも可能です。
知識と人材の需要: データサイエンスの分野での知識とスキルを持つ人材への需要が高まっています。企業や組織は、データサイエンスの専門家を雇用して、データの分析と活用を行いたいと考えています。また、データサイエンスは学問としても注目を浴びており、大学や研究機関ではデータサイエンスに関連するプログラムや研究が増えています。
これらの要素により、データサイエンスはビジネスや科学の分野で重要な役割を果たしており、その注目度が高まっています。以下に、その具体的な理由をいくつか挙げます。
創新と競争力の追求: データサイエンスは新たなビジネスモデルや製品の開発に貢献します。データを活用して市場のトレンドや消費者のニーズを洞察し、それに基づいて新しいサービスや製品を開発することが可能です。企業はデータを駆使して競争力を高め、革新的なソリューションを提供することを求めています。
問題解決と意思決定の支援: データサイエンスは複雑な問題を解決し、意思決定をサポートする上で重要なツールとなっています。データの分析により、事実に基づいた洞察が得られ、ビジネス上の課題や機会を特定することができます。データサイエンスの手法はリスク評価や予測、最適化などにも応用され、効果的な戦略立案や意思決定を支援します。
パーソナライズされた体験の提供: データサイエンスは顧客の行動や好みを理解し、パーソナライズされた体験を提供するための手段としても利用されます。顧客データや行動履歴を分析し、個別のニーズや関心に基づいたオファーや推奨を行うことで、顧客満足度や忠誠度を向上させることができます。
社会的なインパクトと公共政策への応用: データサイエンスは社会的な課題や公共政策の分析にも役立ちます。例えば、交通渋滞の予測や都市計画の最適化、犯罪予測や防犯対策の強化などにデータサイエンスが活用されています。データ駆動のアプローチは社会のさまざまな側面において効果的な解決策を提供する可能性があります。
これらの要素により、データサイエンスはビジネスや科学の分野で重要な役割を果たしており、その注目度が高まっています。以下に、その具体的な理由をいくつか挙げます。
自動化と効率化の追求: データサイエンスは、業務プロセスの自動化や効率化にも貢献します。データの分析と予測モデルの活用により、タスクの自動化や最適なリソースの割り当てが可能となります。これにより、人的な作業負荷を軽減し、生産性を向上させることができます。
組織内のデータ文化の普及: データサイエンスの注目度の高まりに伴い、企業や組織においてデータ文化の重要性が認識されています。データサイエンスの手法やアプローチを組織全体で活用し、データに基づいた意思決定や問題解決を行うことが求められています。組織内でのデータの収集、管理、分析の能力向上に取り組むことで、競争力を高めることができます。
専門化と職業の多様化: データサイエンスの注目度の高まりに伴い、関連する職業や専門化も増えています。データサイエンティスト、データアナリスト、機械学習エンジニアなどの役割が求められるようになりました。また、データサイエンスを支えるツールやプラットフォームの開発も進んでおり、それに関連する職業やスキルも増加しています。
総じて、データサイエンスの注目度が高まっている理由は、データの増加、技術の進歩、ビジネス価値の認識、創新と競争力の追求、問題解決と意思決定の支援、パーソナライズされた体験の提供、社会的なインパクトと公共政策への応用、自動化と効率化の追求、組織内のデータ文化の普及、専門化と職業の多様化など、さまざまな要素が重なっています。
データサイエンスは、ビジネスや科学の領域でデータの価値を最大限に引き出すための力強いツールとなっており、今後もその重要性と注目度は高まっていくことが予想されます。
1.1.2 なぜ、一人ひとりが、データサイエンスを、学ぶ必要があるのでしょうか
専門家に任せてはいけないのでしょうか。
個人的には、次のように考えています。非常に広い範囲の課題に関係している課題に、データサイエンスが使われるだけではなく、その背後にある、単純な、因果関係ではない、考え方を、理解する必要があることが挙げられると思います。
さらに、わたしが特に大切だと考えているのは、個人のコンピュータでも、十分に利用可能であること、オープンデータとか、パブリックデータと言われる、誰でも利用できるデータが、使いやすい形で、提供されていると言うことです。
ChatGPT (2023.6.3)
一人ひとりがデータサイエンスを学ぶ必要がある理由は、以下のような点が挙げられます。
データリテラシーの重要性: データは現代社会においてますます重要な役割を果たしています。データに基づく意思決定や問題解決は、個人の日常生活から組織や社会の活動まで広がっています。データサイエンスを学ぶことで、データを扱うスキルや知識を身につけることができます。データを理解し、適切に分析して活用する能力は、個人の能力向上や自己啓発にも繋がります。
個人の成長とキャリアの展望: データサイエンスは求人市場で高い需要があり、競争力のあるキャリアの一つとなっています。データサイエンスのスキルを持つことで、自身のキャリアの成長や就業機会の拡大が期待できます。データサイエンスの知識やスキルは、さまざまな職業や業界で役立つだけでなく、起業や独立の道も開ける可能性があります。
自己啓発と問題解決能力の向上: データサイエンスは、問題解決や意思決定において非常に有用なツールです。データサイエンスを学ぶことで、情報を分析し洞察を得る力や、パターンを見つける力、予測や最適化の能力を養うことができます。これにより、個人の問題解決能力や意思決定力が向上し、より効果的な選択や行動ができるようになります。
専門家に任せることも重要ですが、一人ひとりがデータサイエンスの基本的な概念や手法を理解することは有益です。以下にその理由を説明します。
データの信頼性と誤解の回避: データは私たちの日常生活やビジネスの意思決定に影響を与える重要な要素です。しかし、データの解釈や分析方法によっては誤解を招くこともあります。データサイエンスの知識を持つことで、データの信頼性を評価し、適切な解釈を行う能力が向上します。これにより、誤った結論や誤解に基づく意思決定を避けることができます。
自己管理とデータプライバシーの保護: 近年、個人のデータの重要性とプライバシーの問題が注目されています。データサイエンスを学ぶことで、自身のデータの管理方法やプライバシーの保護について理解し、適切な対策を取ることができます。データの収集や利用に対して主体的に関与し、自己管理の意識を持つことが重要です。
クリティカルシンキングと問題解決能力の向上: データサイエンスの学習は、クリティカルシンキングや問題解決能力を向上させる助けとなります。データを扱い、分析するためには、情報を適切に評価し、論理的に考える必要があります。データサイエンスの学習は、証拠に基づく意思決定や論理的な議論のスキルを磨くのに役立ちます。
データサイエンスの専門家に相談することは重要ですが、一人ひとりが基本的なデータサイエンスの知識やスキルを身につけることで、自己啓発や問題解決能力の向上、データの信頼性の評価、プライバシーの保護などが可能となります。データサイエンスの学習は、個人の成長やキャリアの展望にもプラスの影響を与えることが期待されます。
1.1.3 AI の活用
「みんなのデータサイエンス」では、AI も活用していきたいと思います。クリティカルシンキングのことも、書かれていますが、どうしても、人は、バイアスのかかった考えかたをしてしまいます。それは、経験も知識も限られていますし、単純な答えを受け入れたい傾向4ということもあるかもしれません。
そのために、まず、仲間に聞いてみる。そして、AI に聞いてみる。それらを踏まえて、さらに、課題や、問いを精緻なものにしていく。それが、まず、第一に大切だと考えるからです。
さらに、最近のAI は、人間の普通の言葉を理解して、コード(コンピュータに伝える言葉)を書くこともできるようになっています。そのような支援を有効に使うことで、プログラミングの訓練を受けていない人でも、データサイエンスを学ぶことができるようになって来ています。
翻訳にも活用することが可能で、長い文章の要約もかなり上手にしてくれるようになっています。
AI はまだ、発展途上で、ここに書いたことも、少し経つと、古くなってしまうことでしょう。しかし、少し長いスパンで考えると、AI 研究の目標値として、掲げられているのは、AGI (Artificial General Intelligence)、汎用人工知能。(人間が実現可能な)あらゆる知的作業を理解・学習・実行することができる人工知能ということです。しかし、課題も多くあります。課題について、AI に聞いてみると次のような回答をしてくれました。
Q. 現在の General Artificial Intelligence の 課題をまとめてください。
GPT4 (2023.8.8)
現在の一般人工知能(General Artificial Intelligence, AGI)には、以下のような主要な課題があります。
理解と推論の限界: 現在のAIは、人間のように世界を理解したり、複雑な推論を行う能力をまだ持っていません。これは、言語理解、感情理解、一般的な常識理解など、多くの問題領域に影響を与えます。
教育データのバイアス: AIは学習データからパターンを学びますが、そのデータが偏っている場合、AIも偏った結果を出す可能性があります。これは、AIが人間の先入観や社会的な偏見を反映する可能性を示しています。
説明可能性と透明性の欠如: AIの決定過程はしばしば「ブラックボックス」とされ、その理由は明らかにされていません。これは、AIの決定がなぜ行われたのか、どのような情報に基づいて行われたのかを理解するのを難しくしています。
安全性とエチカルな問題: AIが自己学習や自己改良を行う能力が増すにつれて、その結果が予測不可能になる可能性があります。また、AIが人間の倫理観や法律を理解し、それに従うようにすることも大きな課題です。
リソースの要求: 大規模なAIモデルの訓練は、大量の計算リソースと電力を必要とします。これは環境に対する影響や、AI開発の費用効率に関わる問題です。
たしかに、どれも、難しそうな課題ですね。みなさんは、これから、どのように、AI を活用し、どのように、向き合われるのでしょうか。
1.2 Gapminder
Gapminder は オラ ロスリング(Ola Rosling) と アンナ ロスリング(Anna Rosling Rönnlund)と ハンス ロスリング(Hans Rosling)が設立した組織です。
ハンス・ロスリング は、FACTFULNESS(ファクトフルネス)10の思い込みを乗り越え、データを基に世界を正しく見る習慣 の著者です。
Gapminder: https://www.gapminder.org
一番上にテストあります。- もしかしたら、あなたの世界観は、間違っているかもしれません。(You are probably wrong about - upgrade your worldview)
Bubble Chart: https://www.gapminder.org/tools/#$chart-type=bubbles&url=v1
Dollar Street: https://www.gapminder.org/dollar-street
Data: https://www.gapminder.org/data/
1.2.1 Factfulness(ファクトフルネス)Hans Rosling
実際のデータから、現実を見ていないと、非常に歪んだ世界観に毒されているかもしれません。ハンス・ロスリングは、公衆衛生が専門のスウェーデンの医師で、アフリカでもな年間も働いた経験ももっている方で、ひとは、さまざまなバイアス(先入観)により、間違った根拠のもとで世界を見ているといい、統計的な資料から、息子のオラと協力して、非常にわかりやすい、バブルチャートでの時代の移り変わりを表現し、サイトに載せています。また、それだけでは、実際の生活が見えにくいという理由から、息子の奥さんのアンナさんの提案で、ダラー・ストリートというプロジェクトもしています。この程度の経済状態の暮らしがどのようなものかを、写真などで、紹介するものです。
先生から教わった知識は、先生が勉強した時代にはある程度正しかったかもしれないが、世界は変化している。自分の経験から、判断すると、その先入観から、多くの間違いを犯すというような指摘もしています。
分断本能を抑えるには、大半の人がどこにいるかを探そう。
ネガティブ本能を抑えるには、悪いニュースのほうが広まりやすいことを覚えておこう。
直線本能を抑えるには、直線もいつかは曲がることを知ろう、
恐怖本能を抑えるには、リスクを計算しよう。
過大視本能を抑えるには、数字を比較しよう。
パターン化本能を抑えるには、分類を使おう。
宿命本能を抑えるには、ゆっくりとした変化でも変化していることを心に留めよう。
単純化本能を抑えるには、ひとつの知識がすべてに応用できないことを覚えておこう。
犯人捜し本能を抑えるには、誰かを責めても、問題は解決しないと肝に銘じよう。
焦り本能を抑えるには、小さな一歩を重ねよう。
(ファクトフルネスから)
データサイエンスはこれらのいくつかを克服するひとつの方法であるように見えます。
ハンス・ロスリングは、すでに 2017年2月7日 に亡くなっていますが、心配している5つのリスクとして、挙げているのは、感染症の世界的な流行、金融危機、世界大戦、地球温暖化、極度の貧困。どれも示唆に富んでいるように見えます。
Youtube にたくさん、ビデオも出ていますが、二つだけリンクを載せておきます。
-
How not to be ignorant about the world | Hans and Ola Rosling
- バイアスを意識しながら(日本語の字幕がついています)
- The best stats you’ve ever seen, Hans Rosling
1.3 「データサイエンスを始めましょう」の特徴
1.3.2 オープン・パブリックデータの活用
データサイエンスは、広い分野ですが、ここでは、オープンデータとか、パブリックデータと言われるものを主として活用していきます。
すでに、書いたように、インターネットに繋がったコンピュータがあれば、だれでも、データサイエンスを学び、データから智を得ることが可能になって来ています。特に、世界に目をむけると、すばらしいサイトがたくさんあり、国際機関などが、膨大なデータを提供しているので、まずは、それを活用したいと思います。
1.4 学習方法について
インターネット上で公開していますので、さまざまな方法で学んでいっていただきたいと思います。個人で学ぶことも可能で、実際に、それが可能なように、書いていく予定です。
しかし、おすすめは、何人かのグループ、または、大学などで一緒に学ぶことです。それは、データサイエンスの目的でもある、問いを持ち、課題に取り組んでいくためには、さまざまな視点からの意見や、考え方が必要だからです。異なる見方をたいせつにする訓練にもなります。
ひとつのグラフから、それぞれが違うことを発見することも多くあります。それを経験しながら、共に考えていく経験が貴重だと思います。
さらに、データの背景にあることを、想像したり、情報を得るために、グループの一員として、AI に加わってもらうことも、有効だと思います。できれば、複数の AI に質問をするのが良いでしょう。
さまざまな課題に、向き合うときに、グループのメンバーや、AI は、多様な意見を言ってくれることと思います。
データを元にした議論の訓練をすることで、根拠を明確にした説明をする訓練もすることができます。そのためにも、グループで学ぶことは有益です。
コードも、AI は教えてくれますが、聞き方が適切ではないと、間違った回答が得られることもあります。それも、グループで議論することで、聞き方を工夫していくことも可能だと思います。
人の前で、発表する練習も、一連の学びの中で経験していくことをお勧めします。ぜひ、みなさんにあった、学びの場を協力して創っていってください。
1.5 参考
-
対話型 AI - Chat Bot について
- AI の使い方や例について、書いてあります。参考にしてください。
-
Data Analysis for Researchers 2022
- オープンデータを用いた、データ分析の授業のデジタルブック