7 世界銀行(World Bank)
7.1 概要
世界銀行は、貧困削減と持続的成長の実現に向けて、途上国政府に対し融資、技術協力、政策助言を提供する国際開発金融機関です。2030年までに極度の貧困をなくし、各国の下位40パーセントの人々の所得を引き上げて繁栄の共有を促進するという2つの目標を掲げています。
世界銀行のサイトを見てみると、下の方にはグラフも出ており、さまざまな統計データを提供することに力を入れていることがわかります。
すでに、世界開発指標については、簡単に説明しました。ここでは、世界銀行のサイトの中のデータについて、見ていくとともに、ダッシュボード(dashboard)の活用、データの取得方法や、API (Application Program Interface)を用いて、R でデータを検索したり、取得するパッケージの紹介を簡単にします。
7.2 データベース
7.2.1 三つのサイト
一つ一つみていきましょう。
英語を読むことが苦手な場合は、ブラウザー(Google Chrome, Edge, Safari などのホームページ閲覧ソフト)の自動翻訳機能を使うのも良いでしょう。しかし、自動翻訳機能を利用していると、リンク先に飛べなかったり、いくつかの機能が使えないこともありますので、正常に機能しないときは、自動翻訳機能を一旦 OFF にして利用してください。
7.2.2 世界銀行オープンデータ
世界銀行のオープンデータ全体にアクセスできるサイトです。上の検索窓の下に、Country(国)と Indicators(指標)と書いてあります。
その下には、いくつかのグラフや、最近のニュースやトピックが書かれており、さらにその下には、More Resources(さらに…)といくつかの項目があります。Open Data Catalog、Data Bank、などと共に、World Development Indicators もあります。このWorld Development Indicators (WDI) を選択すると、上の三つのサイトの三番目に飛びます。また、Data Bank を選択すると、三つのサイトの二番目に飛びます。
最初に書いた、Country(国)と Indicators(指標)から説明しましょう。
7.2.2.1 国別サイト
Country(国別)のサイトを選択すると、国のリストが出てきます。
J のところに、Japan(日本)がありますから、選択してみてください。日本のさまざまな指標とグラフが出てきます。
Indicator(指標)、Most Recent Values(直近の値)、Trend(傾向)が表示されます。指標をクリックすると、大きなグラフが出てきます。その指標のサイトですから、そこで、その指標についての他の国の状況などを確認することができます。そこでは、選択した指標と似た指標が選択できたり、もっと詳しいことを調べるデータバンク(Data Bank)へのリンクもあります。このサイトから、データをダウンロードすることもできるようになっています。
また、国別サイトの右の方には、地域など、グループに分けてある帯もあります。その一番下には、World (世界)もありますから、世界全体について見てみたり、収入の階級に分けたサイトの指標を見ることもできるようになっています。
7.2.2.2 指標別サイト
Indicators(指標)を選択すると、トピックに分けて、指標が並んでいます。
よく見ると、一番上に、Featured Indicators(特徴的な指標) と、All Indicators(すべての指標) とあり、最初に開いているのは、特徴的な指標の方であることがわかります。すべての指標の方を開けると、よりたくさんの指標を見ることができます。
トピックは、以下のものに分かれています。
- Agriculture & Rural Development 農業と農村開発
- Aid Effectiveness 援助の有効性
- Climate Change 気候変動
- Economy & Growth 経済と成長
- Education 教育
- Energy & Mining エネルギーと鉱業
- Environment 環境
- External Debt 対外債務
- Financial Sector 金融セクター
- Gender 性別
- Health 健康
- Infrastructure インフラ
- Poverty 貧困
- Private Sector 民間部門
- Public Sector 公共部門
- Science & Technology 科学技術
- Social Development 社会開発
- Social Protection & Labor 社会的保護と労働
- Trade 貿易
- Urban Development 都市開発
それぞれの指標を選択すると、グラフが表示される画面が出てきます。それは、上で国別のところから選択したものと同じです。
GDP を調べるときには、NY.GDP.MKTP.CD という、コードを指定して、データを取得しました。この、Indicator Code (WDI コード)は、Details (詳細) を見ると、その指標の概要とともに、書いてあります。 そのデータコードは、そのページの上の URL にも表示されています。
はじめてのデータサイエンスでは、WDI という R のパッケージを使って、データを読み込みました。そのときに必要だったのが、この Indicator Code でした。あとで、詳しく調べてみたい指標がありましたら、その、WDIコード(Indicator Code)を、あとで、使えるように、メモなどに貼り付けて(Copy-Paste)おくことを、お勧めします。
7.2.3 オープンデータカタログ(Open Data Catalog)
The Data Catalog is designed to make World Bank’s development data easy to find, download, use, and share. It includes data from the World Bank’s microdata, finances and energy data platforms, as well as datasets from the open data catalog. There are different ways to access and download datasets.
データカタログは、世界銀行で編纂した開発に関するデータを簡単に検索、ダウンロード、使用、共有できるように設計されています。これには、世界銀行のマイクロデータ、財務、エネルギーデータプラットフォームからのデータ、およびオープンデータカタログからのデータセットが含まれています。データセットにアクセスしてダウンロードするには、さまざまな方法があります。
世界銀行(World Bank)で編纂したり、他の機関から提供を受けたデータがリストされています。
一番上には、Search Box(検索窓)があり、その下には、Featured (特徴的な、またはお薦め)とあり、いくつものトピックが並んでいます。右に、スクロールするとさらにいくつものトピックを見ることができます。その中にも、上で述べた 世界開発指標(WDI)もありますし、Covid-19 (コロナウイルス感染症)関連のデータもあります。
それぞれの、トピックに、関連のデータがリストされています。
7.2.4 世界銀行(World Bank)
このページの最初にも書きましたが、簡単にまとめておきましょう。
- 世界銀行(World Bank): https://www.worldbank.org
-
世界銀行について(Who we are):
- 極度の貧困状態の削減(To end extreme poverty): 2030年までに、極度の貧困状態にある世界人口の割合を3%に削減する。By reducing the share of the global population that lives in extreme poverty to 3 percent by 2030.
- 繁栄を共に享受(To promote shared prosperity): すべての国の最貧困層の40%の人々の所得を増加させることによって共栄を促進。By increasing the incomes of the poorest 40 percent of people in every country.
- 世界銀行オープンデータ(World Bank Open Data): https://data.worldbank.org
- Data Bank, World Development Indicators, etc.
7.2.5 世界開発指標(World Development Indicator)
すでに紹介しましたが、簡単にまとめておきます。
-
World Development Indicators (WDI) : 世界銀行が開発に関する各国間比較可能なデータの集大成である1400の時系列指標(the World Bank’s premier compilation of cross-country comparable data on development; 1400 time series indicators)
- テーマ別(Themes): 貧困と格差、人間、環境、経済、国家と市場、グローバルリンク集(Poverty and Inequality, People, Environment, Economy, States and Markets, Global Links)
- オープンデータとデータバンク(Open Data & DataBank): Explore data, Query database
- すべてのデータおよびメタデータを Excel または CSV 形式で、一括してダウンロードすることもできるようになっています。Bulk Download:
- コンピュータを使って読み込む場合のデータの仕様が書かれています。API(Application Program Interface)Documentation
1400ものデータがありますから、すべてのデータやメタデータをダウンロードすれば、すぐ、データを調べることができるわけではありません。基本的なことをおく必要がありますね。上にもリンクのある、データカタログから、世界開発指標(World Development Indicators)を選択すると、次のサイトにリンクがついています。
このページからは、Databank(ダッシュボード)へのリンクなどの他、Excel ファイルや、CSV ファイルで、メタデータを取得することもできるようになっています。WDI 全部のリストもここで見ることができます。このファイルから探すのが最適とは言えませんが、そのようなファイルを持っておくことは便利です。
7.3 ダッシュボード(Dashboard)
世界銀行のダッシュボードには二種類あります。一つは、それぞれの指標についてのダッシュボード、もう一つは、データバンク(DataBank)です。
7.3.1 World Bank アカウント
ダッシュボードは、リンクにアクセスすれば、アカウントなどを作成せず、すぐに使えます。しかし、ダッシュボードを使って、グラフを作成したり、自分用の、データを作成したりした場合には、その結果を、保存をしたり、リンク(iframe 形式)を、文書に埋め込んだりする必要を感じる場合があります。その場合には、一般用アカウントを作成する必要があります。このサイトの Sign Up から、アカウントを作成してください。
7.3.2 指標毎のダッシュボード
はじめてのデータサイエンスで使った、GDP (Current US$)、データコード NY.GDP.MKTP.CD についてみてみましょう。
いくつかの方法があります。
- 世界銀行オープンデータ から、指標(Indicator)を選択し、その中の Economy & Growth(経済と成長)の中から、GDP (current US$) を選択すると、ダッシュボードが現れ、世界の GPD の推移のグラフが表示されます。
- 世界銀行オープンデータ から、国(Country)を選択し、例えば、J から、Japan を選択し、Economics(経済)の指標の GDP (current US$) を選択すると、ダッシュボードが現れ、日本の GDP の推移のグラフが表示されます。指標によっては、上の、Theme(テーマ)や、Topic(トピック)から選ぶ必要がある場合もあります。
- 世界開発指標(WDI)の Data Theme(テーマ)の中の、ECONOMY(経済) の中から、GDP (current US$) を選択すると、ダッシュボードが現れ、世界の GPD の推移のグラフが表示されます。
- もし、WDI コード(この場合は、NY.GDP.MKTP.CD)を知っていれば、このコードを、世界銀行オープンデータ の検索窓に入れて検索すると、上のダッシュボードのページが表示されます。
最初は、選択した指標について、世界か、日本など選択した国の、折れ線グラフ(Line Graph)が表示されていると思います。そして、下の方に、国のリストがあり、その一番下には、地域のリストが続いています6。また、Line (折れ線グラフ)と書いた右には、Bar(棒グラフ)と、Map(地図)とあります。
その右には、Also Show (追加)とあり、Aggregates(総合)、Same Region(同じ地域)、Similar Values(近い値)、Highest Values(最高値)、Lowest Values(最小値)を表示することもできます。表示しないときは、None を選択します。
その右には、Share(共有)と、Details(詳細)があります。詳細には、その指標についての、詳しい説明があります。すべてを理解することはできないかもしれませんが、翻訳機能も使って、確認しておくことをお勧めします。詳細には、データコードも書かれています。記録しておくと、次に同じ指標のデータを探すときに便利です。共有からは、Web Page や、SNS に埋め込む、iframe link を取得することができます。
右の方の帯には、関連する指標がリストされ、さらに、Download(ダウンロード)、Data Bank(データバンク)、WDI Tables (統計表)へのリンクがあります。
7.3.2.1 使い方
具体例としては、GDP(Current US$)の世界(World)のグラフが表示されているとします。上の検索窓に GDP(Current US$)と入っていると思います。
-
国や地域の追加
英語で入力しますから、グラフの下の、国や地域名のところから、追加したい、国や地域名を選んで、書き出しておいてください。一つずつ追加するときは、コピーするのも良いかもしれません。
日本をグラフに追加するときは、Japan ですから、検索窓に、Japan と入れて少し待ちます。すると、窓の下に、Japan が表示されますから、それを選択(クリック)します。すると、日本のグラフに変わります。India も加えてください。次に、検索窓に、United と入力すると、United Kingdom, United States, United Arab Emirates が表示されますから、United Kingdom を選択してください。Japan, India, United Kingdom の三つの国のグラフが同時に表示されます。これによって、いくつかの国のその指標における経年変化を比較することができます。
いろいろな国や地域を加えてみてください。たとえば、GDP を指標として、United States を加えると、United States の GDP の値が大きいため、他の国のグラフは下の方に重なり合うようになります。Afghanistan を加えると、ある年以前のデータがなかったり、値がとても小さいために、X 軸に張り付くようになってしまったりします。みやすいグラフを表示するには、どのようなものの比較をするかも重要になってくることがわかると思います。
追加した国や地域を消すのは、単にその国名の、右に表示される x マークを選択すれば良いですし、Delete キーでも消去できます。
実は、Japan など一つの国を加えてからあとは、下の国名などのリストから、追加したい国を選択すると、追加されていきます。検索窓に入れるよりも簡単だと思います。
-
Also Show の活用
上に書いたように、Aggregates(総合)、Same Region(同じ地域)、Similar Values(近い値)、Highest Values(最高値)、Lowest Values(最小値)を追加できます。たとえば、Japan(日本)だけを残しておいて、Same Region を選択すると、いくつかの国の値が、薄く表示されます。地域名をみると、これは、East Asia & Pacific(東アジアと太平洋地域)であることが推測されます。
そこで、East Asia & Pasific を選択すると、その地域の総計の値が追加されます。
7.3.2.2 データダウンロード
R のパッケージを用いたデータのダウンロードについてはあとから述べますが、指標毎のダッシュボードの右の帯のダウンロードからも、データをダウンロードすることができます。
CSV(Comma Separated Values)、XML(Extensible Markup Language)、EXCEL(Micosoft Excel Spreadsheet) と三つの形式でデータを取得できます。それぞれ、R などで読み込むことができます。ただし、CSV と、XML は、Zip 形式の圧縮ファイルになっています。EXCEL は、三つのシート(Data, Metadata - Countries, Metadata - Indicators)が一つの、ブックになっています。Metadata(メタデータ)は、データのデータで、データについての情報が収められています。
7.3.3 データバンク(DataBank)
上で説明した指標毎のダッシュボードの右の帯からも、データバンクのダッシュボードが開きますが、世界銀行オープンデータ の下にある、データバンクを選択すると、リストが表示されます。ここで、ある程度選択してから、ダッシュボードを表示させることもできます。一番上に、World Development Indicators(世界開発指標)がありますから、選択してください。あとから、他のものに変更することも可能です。
表が表示され、左の方に、Variables(変数)、Layout(レイアウト)、Styles(形式)、Save(保存)、Share(共有)、Embed(埋め込み) とあり、右上には、Table(表)、Chart(グラフ)、Map(地図)、Metadata(メタデータ) とあり、その下には、Preview(表示)などとなっていると思います。
膨大なデータを選択し、形式を整えて、ダウンロードしたり、グラフを表示したりすることができます。
7.3.3.1 例1
まずは、一つ目の例として、GDP (Current US$) の値を大きい方から国順に並べてみましょう。
Variable の Database で、World Development Indicators を選択します。
Countries では、上に、All、Countries、Aggregates とありますから、Countries を選択します。
一番左のチェックボックス Select All(すべて選択)を選びます。これで国が全部選択されました。現在ですと、Selected 217 と出ています。
Series は、いくつか選択されている可能性がありますから、X マークを選択して、まずは、全部選択を解除し、次に、GDP (current US$) にチェックを入れます。Selected 1 となっていることを確認してください。
Time の一番左のチェックボックスから、Select All にしてください。現在では、Selected 63 と表示されました。
右の方に、Selections have been modified … (選択が変更されました …)と出ますので、Apply Changes(変更を適用)を選びます。
上の Layout タブを選択し、Time を Column(列)、Country を Row(行)、Series を Page(ページに指定します)
ここまでで、Table に、GDP (current US$) についての表が表示されていることを確認してください。
これを書いている時点では、2022年が最も新しいデータで、2022 の年のところをクリックすると、最初は、国名のアルファベット順になっていると思いますが、それが、その指標の値の、昇順、降順に変更できます。ここでは、GDP が大きな値の順に並べたいので、降順にします。
10位までの国は、United States, China, Japan, Germany, India, United Kingdom, France, Russian Federation, Canada, Italy となっているかと思います。
7.3.3.2 例2
2022年の値で、10位までの国を選択して、折れ線グラフや、棒グラフなどを書いてみましょう。
- Variables の Countries の X で選択を解除し、上の10カ国を選んでください。
- 右の方に、Selections have been modified … (選択が変更されました …)と出ますので、Apply Changes(変更を適用)を選びます。すると表が10カ国のものに変わります。
- 上の、Styles を選択し、Chat Type & Style で、Line(折れ線グラフ)を選択すると、しばらくして、10カ国の、折れ線グラフを表示させることができます。色も変更することも可能です。
- Chat Type & Style で Horizontal Bar を選択し、Layout で、
以下では、変数(Variables)の選び方と、グラフ(Chart)について簡単に説明します。
7.3.3.3 変数(Variables)
Database、Country、Series、Time とあり、それぞれの右に、Available と Selected とあります。
どのデータベースについて、国を選択し、系列を選び、期間を選択するという形式になっています。
Database の左の三角印を選択すると、データベース名が確認できます。現在は、World Development Indicators が選択されています。ここで、他のデータベースに変更することも可能ですが、まずは、そのままにしましょう。
次は、Countries(国)です。All、Countries、Aggregates と一番上にあります。国だけを表示するか、地域やグループを表示するか、すべてを表示するかを選択できます。
簡単のために、まずは、Countries(国)を選択しましょう。
国がいくつか選択されている場合もありますから、X マークをクリックして、すべて選択を消去し、国を選んでみましょう。GDP のところで経験したように、GDP の多い方から、United States、China、Japan、Germany、India、United Kingdom、France を選択してみましょう。
7.3.3.4 GDP per capita (constant 2015 US$)
実質GDP(2015年を基準にしたもの)を、総人口で割った値。アメリカ合衆国、英国、ドイツ、フランス、日本、中国、日本、ロシア、ウクライナの2021年における比較棒グラフ - リンク
年次変化を示す折線グラフ -
7.3.3.5 Central government debt, total (% of GDP)
2020年の政府の負債(GDP の百分率)- リンク
政府の負債(GDP の百分率)の年次変化を示す折線グラフ
7.3.3.6 CO2 emissions (metric tons per capita)
CO2 排出量 (1 人あたりのメートル トン) - リンク
CO2 排出量 (1 人あたりのメートル トン) の年次変化の折線グラフ
7.3.3.9 Proportion of seats held by women in natinal parliaments (%)
2021年、国会で女性が占める議席の割合 (%) - リンク
国会で女性が占める議席の割合 (%) の年次変化
7.4 API
世界銀行(World Bank)の API を利用した R のパッケージを二つ紹介します。
7.4.1 WDI
Search and download data from over 40 databases hosted by the World Bank, including the World Development Indicators (‘WDI’), International Debt Statistics, Doing Business, Human Capital Index, and Sub-national Poverty indicators.
世界開発指標(「WDI」)、国際債務統計、Doing Business、人的資本指数、準国家貧困指標など、世界銀行が主催する40以上のデータベースからデータを検索してダウンロードします。
R のパッケージサイト:https://CRAN.R-project.org/package=WDI
資料(Materials):https://cran.r-project.org/web/packages/WDI/readme/README.html
マニュアル(Manual):https://cran.r-project.org/web/packages/WDI/WDI.pdf
7.4.2 wbstats
Programmatic Access to Data and Statistics from the World Bank API
世界銀行APIからのデータと統計へのプログラムによるアクセス
R のパッケージサイト:https://CRAN.R-project.org/package=wbstats
資料(Materials): README
マニュアル(Manual):https://cran.r-project.org/web/packages/wbstats/wbstats.pdf
使い方の例(Vignette):https://cran.r-project.org/web/packages/wbstats/vignettes/wbstats.html
7.5 Google Public Data Explorer
Google の パブリックデータ探索(Public Data Explorer)サイトの紹介とともに、世界開発指標をこれを使って見てみたいと思います。
Google で Public Data を検索すると、おそらく、次のサイトが見つかると思います。
https://www.google.com/publicdata/directory?hl=ja&dl=ja#!
これは、日本語サイトで、2023年9月現在では、データの提供元の数が7となっています。また、
右上に、言語とありますから、それで English (United States) を選択すると下のリンクに飛びます。ここには、45と書かれています。
https://www.google.co.jp/publicdata/directory?hl=en_US&dl=en_US#!
英語版で使うことをお勧めします。例えば、上で見た World Development Indicators(世界開発指標)は、英語版だけでなく、日本語版にもありますが、中身を見てみると、国によってデータがなかったり、少し古いデータまでしかなかったりなどあるようです。どの指標の、どのデータとすべてを挙げることはできませんが、英語版を使った方が安全だと思います。指標について、英語で意味するものがよくわからない時は、ブラウザーの翻訳機能を使って見当をつけるのも良いでしょう。
英語版には、上に例が出ていると思います。自動的にスライドしますが、一番最初は、世界開発指標で、私が確認したときは、Living Longer with Fewer Children(子供の数が少ないと長生き)という表題になっています。このグラフをクリックしてください。
7.5.1 例1 WDI: Living Longer with Fewer Children
グラフをクリックすると、このようなページ が表示されると思います。
左の帯には、Public Data、World Development Indicators と書かれ、いろいろな項目が並んでいます。また、よく見ると、以下のように書かれています。
X軸:Life Expectancy(生まれた時点の平均寿命)
Y軸:Fertility Rate(出生率)
色:Region(地域)
サイズ:Population(人口)
下:矢印と2017の数
と出ているかと思います。何が書いてあるか確認してください。違っていても構いません。
これで大体理解できたと思いますが、これが、WDI のデータを元にして、2017年時点での、平均寿命と、出生率の散布図で、丸の大きさで、人口を表し、色で地域を表しています。
下の矢印を押すと、1960から始まって、どのように変化したかを見ることができます。Gapminder のところで、書いた、バブルチャートと言われるもので、ハンス・ロスリングが Google に管理を依頼したと言われています。
左には、Compare by という項目があります。それを開くと、Region、Lending Type、Income Level とあります。Region に Color と書いてあると思いますが、Income Level の右の プルダウンメニューを推し、一番下にある、Color by This を選択すると、右上の、凡例(Legend)と言われるものが、Income Level に変わると思います。動かしてみるとわかりますが、右下に、High Income がまとまっていると思います。日本は、見つけられますか。
Counrtry List のところの、日本にチェックを入れると、Japan と表示されますから、すぐ見つけられます。マウス(ポインター)を丸に近づけると国をみることもできます。High Income でも、Fertility Rate が 2に近い国もあることがわかります。どんな国がそうなっていますか。
この辺りでやめておきます。
右上には、折れ線グラフと、棒グラフと、地球のマークと、散布図のマークがあります。現在は、散布図が使われています。その右には、ギアマークと、リンクのようなマークがあります。
ギアマークで、X軸や、Y軸を対数にしたり、リンクから、このグラフのリンクを取得することもできます。リンクは二種類ありますが、上が、通常のリンク、下は、iframe リンクと言われるものです。
7.5.2 例2 GDP per Cap vs CO2 per Cap in Log-Log
今度は、日本語でも、英語でも良いですが、一人当たりの GDP を X 軸に、一人当たりの、CO2 排出量を Y 軸にとり、対数にして、表示してみましょう。
X軸:1 人あたり GDP(実質値: 2010 年基準、米ドル表示) - 対数
Y軸:1 人あたりの CO2 排出量 - 対数
サイズ:人口
色:地域
7.5.3 まとめ
例から始めましたので、二つの WDI の指標を使い、さらに、人口や、地域など、他の指標も、一つのグラフに含めたものを見てきました。最初にすごいものから始めてしまいましたが、大雑把には、次のようなものになっています。
-
折れ線グラフ(line graph):一つの指標の時系列での変化。
- いくつかの国や地域などについての値を用いて、色で区別して表示することも可能です。
-
棒グラフ(bar graph):一つの指標をいくつかの項目(国や、地域など)を表示
- 特定の年の、特定の指標の値を、いくつかの国や地域について表示
-
色付き世界地図(choropleth map):カテゴリーごとに、色を変えて、地図上に表示
- 個人の収入の多寡などのグループ(income level)ごとに色を変えて、地図上に表示することなどが可能です。
-
散布図(scatter plot):二つの指標の関係性を表示
- さらに、点などの大きさにも他の指標の情報を加えたり、色などで、カテゴリーごとの情報を加えることも可能です。
最後に一番最初に挙げた、Living Longer with Fewer Children で何種類の情報が表示されているか見てみましょう。同時に、数値か、カテゴリー(グループ)かも書いておきます。
Life Expectancy(生まれた時点の平均寿命):数値 - X 軸
Fertility Rate(出生率):数値 - Y 軸
Country(国):カテゴリー:点
Population (人口):数値:点の大きさ
Region(地域):カテゴリー:点の色
Year(年):(離散的:とびとびの)数値:一枚ごとのスライド
ほかにはありますか。普通は二つの指標しか表せないように思いますが、ここでは、6つの情報が入っていますね。
いろいろと調べてみませんか。
なかなか素晴らしいですね。ただ、2014年にプロジェクトがスタートしてから、2017年、2020年と更新されていますが、更新の頻度はあまり高くないように見えます。例としては、十分機能していると思いますが。