トピックス

「数理・データサイエンスと大学」インタビュー

第11回 株式会社Preferred Networks PFNフェロー 丸山 宏 氏 人間を理解できなければデータ分析はできない

深層学習などの最先端の技術を次々と実装しているPreferred Networksで、社会の課題解決に取り組む丸山氏。一方で人材教育にも熱心に取り組み、企業研究者を目指す人に向けた著作も上梓している。今回、「応用基礎レベル」のモデルカリキュラム策定委員会に新たに参加することになった丸山氏に、産業界が求める人材像や人材育成の方向性、AIをめぐる最新動向について聞いた。
(※撮影を除き、本取材はリモートで行われました)

現場に受け入れられるソリューションを提供する

―丸山さんは現職以外に、日本IBMやキヤノンなどでも研究開発に携わられた経験をお持ちです。企業ではどのようなデータ活用人材を求めているのでしょうか。

2種類あります。まず、データ分析をビジネスの中にどう組み込んでいくかを考える「ゼネラリスト」。そして、テクノロジーを深く理解し、データ分析やシステム開発を行う「エンジニア」です。

エンジニアの仕事はデータを分析して終わり、ではありません。それを企業の新しい価値創造に結びつけるためには、現場の人々に受け入れられるソリューションを提供することが大切です。ところが顧客が欲しいと思っているものを顧客の言うとおりにつくったとしても「これじゃなかった」と言われるケースは少なくありません。それは顧客の真の問題を解いていないということ。

IBMにいたとき、われわれと話をするのは主に客先の情報部門の人でした。しかし先方が大企業となると、情報部門と現場との間に距離が生まれます。だから私は顧客のプロジェクトに入るときは必ず「現場を見せてください」とお願いしていました。実際に現場で何をやっているかを自分の目で見て、解決が必要とされている課題を見出す。「自分だったらこういうものが欲しい」と思うものを想像してつくっていく必要があります。

ゼネラリストが身につけるべき3つの統計的概念

―「エンジニア」についてはわかりました。では「ゼネラリスト」の場合、データリテラシーをどのように身につけていけばいいでしょうか。

それに関しては数理・データサイエンス教育強化拠点コンソーシアムの特別委員会で検討し、2020年4月に全ての大学生・高専生が参照可能なモデルカリキュラム(リテラシーレベル)を公表しています。

私の考えを言えば、基礎として3つの統計的概念を身につけてほしい。

1つは「世の中で起きる事象にはばらつきがある」ということ。だから100%何かが起きることはあり得ない。

こんな話があります。アメリカの各学校別に生徒の成績を調査してみた。成績上位校は規模が小さな学校だった。この結果を見て、ビルゲイツ財団はアメリカの学校の規模を小さくするために多額の寄付をしました。しかし、よく調べてみると、成績が下位の学校も規模の小さな学校だった。生徒数の少ない学校に飛び抜けて成績優秀な生徒が1人いれば、平均値が大きく上がります。一方、生徒数の多いマンモス校は押し並べて平均的な成績になる。事象にはばらつきがあり、数多く集めれば平均的になる――そういうことを知っておくことです。

2つ目が「相関と因果」について。「交番が多い地域は犯罪が多い」。これは因果関係が逆で、犯罪が多いから交番が多く設置されている可能性が高い。多くの人は相関があると、裏に因果関係があるとつい考えてしまいます。ですが、相関はあっても因果関係があるとは限りません。相関と因果の違いを知っておく必要があります。

―因果の有無をどうすれば判断できますか。

データから判断するのは難しい。因果関係を完全に解明するには実験を重ねていくしかありません。統計学に「因果推論」という分野もありますが、一般論として言えば、統計から因果は解らないと思った方がいい。統計で解るのは相関です。

しかし相関が解れば、世の中で役立つ場面はたくさんあります。「雨が降る日は傘が売れる」という相関を知っていれば商売に使えるでしょう。

3つ目は「情報の価値」です。例えば、私がPCR検査を受けて陽性と判定されたとします。このとき本当にコロナウイルスに感染しているのか、データがあればその確率を「ベイズ推論」によって計算することができます。

私が検査を受けていなければ、東京都の陽性率が4%として、私が罹患している確率は4%。PCR検査の感度が70%、罹患していない人が陰性と出る特異度を97%として計算すると、たとえ検査で陽性の結果が出ても、私がコロナに罹患している確率は50%ほどになります。

このように人の直感と現実が合わないことがあります。けれども事実は統計に近い。データがあれば紙と鉛筆で計算できます。実際に計算してみることの大切さを伝えたい。

人間を解っていないとデータを読み誤る

―丸山さんは、今回新たに「応用基礎レベル」のモデルカリキュラム作成の委員会に入られましたが、カリキュラム内容に対するお考えを聞かせてください。

一般の人たちを対象とするデータリテラシー向上と、エンジニアが身につけるべきスキルの2点に分かれます。

リテラシーの向上に関しては、今話した3つの概念を全ての人がしっかりと身につけてほしい。エンジニアが何を身につけるべきかは、さまざま意見はあると思いますが、私としては大学時代に少なくとも数学、語学、そして人の根幹をかたちづくるリベラルアーツの3つを習得してほしい。

統計が出てこないのを不思議に思うかもしれませんが、数学の言葉は語学みたいなもので、新しい手法や論文、あらゆるものが数学の言葉で書かれる。だからそれを読めるよう数学を身につけておいてほしいのです。

語学も同じです。機械学習の新しいアルゴリズムなど、情報はまず英語で発信されます。エンジニアが英語の論文や、新しいソフトウェアの英語のマニュアルを読めなければやっていけません。

そしてリベラルアーツはなぜ必要か。私たちデータサイエンティストはデータを見ます。「データが語っているのだから正しい」という言い方をよく耳にしますが、そのデータは人の営みによって得られたものです。「こういうデータが欲しいから、センサーを入れてみよう」と。その結果、出てくるものは、事実そのものを映しているのではなく、その人の持つフィルターを通っていて、どこかにバイアスが乗っています。それを理解していないとデータ分析はできません。その人はどういう意図でそのデータを持ってきたのかを、データサイエンティストとしては想像できないといけない。

ということは、数学、プログラミングだけ勉強しても駄目で、人間を理解しないとデータ分析はできないということです。歴史を勉強したり、芸術に触れたりすることがデータ分析には必要だろうと私は思っています。

進展著しい「ブラックボックス最適化」の技術

―AI関連の研究分野における新しい動向について教えてください。

現在のAI研究のフォーカスは、ディープラーニングを含む統計的機械学習にあります。私が注目している技術領域としては「ブラックボックス最適化」があります。

従来の「数理最適化」は、最適化したい数学的空間が事前に分かっている領域の問題を扱います。ブラックボックス最適化は、効用関数が事前に与えられない中で、実際に試してみないとどれくらい良いのか分からない問題に対し、試す回数を最小にして最適な部分を探す方法です。この領域の技術が今、急速に進んでいます。Preferred Networksでも機械学習のハイパーパラメータを自動で最適化するツールを出しており、広く一般の「ブラックボックス最適化」問題に使える可能性を秘めています。

―その技術が実用化されると、社会でどのように使われるのでしょうか。

身近な例では、ブラックボックス最適化のシステムはプログラミングする際に最適なアルゴリズムの組み合わせを見出すことができます。最適化を任せれば、職人技で得られたような効率の良いプログラムを自動的に書くことができるようになるわけです。

―全ての都市を一度ずつ巡るときの最適ルートを求める「巡回セールスマン問題」なども、早く解けるようになりますか。

そのとおりです。「巡回セールスマン問題」は、これまでのコンピュータサイエンスではNP困難問題といわれ、効率的に解けないと言われていました。しかし、最適化の技術が進んだ新しいコンピュータサイエンスの常識では「巡回セールスマン問題に落とし込めれば、実世界に現れる問題のほとんどは解けたといってよい」ということになっています。

現在のコンピュータサイエンスは「1」か「0」の世界、つまり「解ける」「解けない」の話ではなくなりつつあります。理論上、解けない問題はありますが、事実上は解ける。このクラスの問題はほとんどの場合、解けるようになりつつあります。

―今後のコンピュータサイエンスの動向についてどう見ていますか。

今の機械学習は基本的には確率や統計に根ざしています。確率論は、コルモゴロフの「公理的確率論」に根ざしている。そのベースになっている数学の理論は、突き詰めると少し怪しいところがあると思っています。そのせいかは判りませんが、今の統計は過去のデータから未来を予測するので、過去と未来が連続していないとうまく働きません。そのままではイノベーションはなかなか起きないと思います。

アインシュタインは従来のニュートン力学の前提を疑い、一般相対性理論を考えました。そういう発想の飛躍は、今の統計的機械学習からはなかなか現れにくい。過去と未来がどんどん変わっていくような世界で、うまく動く統計モデルが、今後出てきてほしいと思っています。

Profile 丸山宏

株式会社Preferred Networks PFNフェロー。1983年、東京工業大学大学院理工学研究科修士課程修了。同年、日本アイ・ビー・エム株式会社入社。人工知能、自然言語処理などの研究に従事。1995年、京都大学より博士(工学)授与。日本アイ・ビー・エム東京基礎研究所所長、キヤノン デジタルプラットフォーム開発本部副本部長などを経て、2011年、情報・システム研究機構 統計数理研究所教授。2016年、Preferred Networks 最高戦略責任者、2018年より現職。著書に『企業の研究者をめざす皆さんへ ―Research That Matters』(近代科学社)『データーサイエンティスト・ハンドブック』(共著、近代科学社)など。