トピックス

「数理・データサイエンスと大学」インタビュー

第17回 九州大学 マス・フォア・インダストリ研究所
産業数理統計研究部門 廣瀬雅代 助教
嫌われがちな「数式」の力の凄さを伝えたい

近年、エビデンスに基づいた政策立案(EBPM)の重要性が認識され始めている。その礎となる根拠資料の作成に貢献可能な、高精度な統計的推定手法の研究と確立を目指す廣瀬雅代氏に、統計数理の魅力と可能性について聞いた。

ブラックホールを捉えた画像にも
データサイエンスの知恵が詰まっている

―廣瀬先生は、九州大学のマス・フォア・インダストリ研究所(IMI)に所属されています。

はい。数学を応用して産業技術に活かし、課題を解決することを目的とした研究所です。2021年度までの3年間、IMIに在籍しながら数理・データサイエンス教育研究センターの特プロ助教をしていました。九州大学の数理・データサイエンス教育研究センターはいろいろな学部に専任教員を配置するシステムをとっているのです。そのおかげで多様な分野の価値観を共有でき、様々なデータサイエンスの可能性を見出すことができます。現在私はIMIの専属ですが、数理・データサイエンス教育研究センターの活動にも引き続き協力したいと思っています。

―ご自身が統計やデータサイエンスを学ぼうと思われたのはどのような理由からですか。

数学の純粋さ、抽象性が好きでした。一方で、薬学にもずっと興味を持っていました。新薬を生み出すことで人を救うことができる、その役割の大きさに魅せられたのです。

大学院への研究室訪問の時期に、両者を結びつける統計学の存在を知りました。ある研究室の複数の先輩が製薬会社の統計解析職で活躍している、ということを知り、統計を学んでみようと思いました。

私の当時の学部時代の学科には確率論の授業はあったものの統計学の基礎の授業はなく、統計学についてはほとんど知りませんでした。私が学生の頃は、統計学を基礎から学べる学科はまだ少なかったのです。その点、早い時期から統計学に触れられる今の学生の環境はうらやましいですね。

―講義で工夫されていることはありますか。

理学部や工学部の2、3年生に統計の基礎を教えていますが、学生の興味を引くため、最初の講義やその途中に統計やデータサイエンスがさまざまな分野でどのように使われ、役立っているか、そのときどきのトピックを用いて伝えるようにしています。

例えば、天文学系の学科への講義では、ニュースになった「ブラックホールを初めて捉えた画像」について取り上げました。地球上の8つの電波望遠鏡で観測したブラックホールのデータを使ったものですが、実はそこには統計、機械学習、最適化などで研究されている手法も活用され、逆行列の存在性とも関連していることを、簡単に説明しました。

社会の課題解決に
ダイレクトに貢献する統計学

―現在、どのような研究に取り組まれていますか。

統計数理の分野で、小地域ごとの特性値を統計的に推測する手法の研究をしています。その中でも、地域の状態を細かいエリアで見ていくときに、データが少なければ、他の地域のデータを活用し、統計的モデルを介して推定することに興味を持っています。そうした際に用いる、より高精度な推定法の開発、精度保証そして確立を目指しています。

アメリカは貧困問題の対策に数理面からも力を入れているように見えます。アメリカへの留学時に受け入れてくれた先生が、地域ごとに貧困率などの推定値を出した詳細なマップ作成の重要性を語ってくれました。その地域全員からはデータを取れないので、精度良く推計できる統計的な手法を適用してマッピングするのですが、それを見て、統計学はこうして社会の課題解決に役立っているのだと改めて気づかされました。将来的には「証拠に基づく政策立案」(EBPM:Evidence Based Policy Making)に向けたより有用な統計的推測法の発展可能性を吟味・確立し、社会に貢献できたらと考えています。

―統計数理のどのようなところに面白さを感じますか。

仮説を立て、数学的な証明をもとに、社会を少しでも良くすることにつながる手法が考案できたときは嬉しいですね。「社会の役に立つこと」が、私の研究の糧の一つになっています。

証明は多くの時間を要する大変な作業です。「この統計手法は数学的に妥当性・信頼性がある」ということを確認する作業は、新しい定理をつくるにほぼ等しい。時間はかかりますが、やりがいは大きいです。

また、問題の発生を抑えつつ、統計的な精度を保つ(リスクを抑える)ことも重要です。例えば、統計ソフトウェアの中で推奨されている手法でも、推定値が現実的な値でない「不適解」が出てしまい、それによって地域差がないと推定されるケースも実際に起こりえます。そこで私は、その推奨されている手法と予測誤差などの統計的精度をほぼ同等に保ちながら、不適解が出てしまわないよう工夫した手法を考え、妥当性・信頼性を数学的に証明した上で発表しました。うまく証明できた時の喜びは、ひとしおでした。

もう一つ、私が面白さを感じているのは、統計数理を使えば計算量を減らすこともできるということ。今はコンピュータの処理能力が上がり、計算量の多い手法を用いても素早い処理が可能になってきています。けれども計算負担のある手法を使うにはコストがかかりがちです。そこにお金をかけられない地域や貧しい国はデータがあっても活用できないかもしれません。統計数理を駆使して精度を維持しながら計算量を減らすことができるのであれば、そのテーマに挑戦してみる価値は十分あると思っています。

裏付けをとることの重要性
数式がなければ検証する術がないかもしれない

―データサイエンス教育について、感じていることはありますか。

やはり、学生の中には数式に抵抗がある人も少なくありません。一部の研究者にさえ、数式や数学は役立たない、と言われたこともあります。その点、少しでも数式を用いてもっと数理の力を伝えるような努力や教育も重要だと感じています。自然現象や社会現象は数式で表し解釈することもできます。すると、社会の課題を数学的に扱い、問題解決に導くこともできる。「数理」の力は凄いのだということだけでも、何とか伝えたいと思っています。

そのために、単に数式だけを説明するのではなく、その背後の意味も含めて説明するよう心掛けています。例えば、線形単回帰分析で最小二乗法を用いた場合における「決定係数(R2)」もそう。回帰式が観測値にどのくらい当てはまっているかを見る指標で、0から1までの値をとり、1に近いほどいまあるデータへの当てはまりがよいことを示します。

それを教える際、なぜ0≦R2≦1になるのかを少しでも数式を使って解説するようにしています。例えば決定係数は、A=B+C の関係式を満たすような、ある非負のA、B、Cに対し R2=B/Aとして定義されます (ちなみに、A、B、Cはそれぞれデータの散らばり具合、Bは回帰式に基づく予測値の散らばり具合、Cは残差の散らばり具合として解釈できます。)

ここで、A>0のときを考えます(A=0の場合は問題が生じるため除外しています)。つまり、「B≥0, C>0」または「B>0, C≥0」です。もしB≥0, C>0であれば、B/Aも0以上になるので0≦R2=B/Aですね。しかも、B/AというのはAにおけるBの割合ですが、AはBとCを足したものなので常にBより大きく、B<Aになる。ということはB/A<1が成り立ちます。同様に、B>0, C≥0であれば0<R2=B/A≦1になります。よって、2つの可能性を考えて 0≦R2=B/A≦1、つまり0≦R2≦1ですね、という具合に説明します。こうしたことも少ない数式で表すことができるのです。

よく入門書で、あえて一切数式を出さないで解説していることを“売り”にしているものもありますが、逆にそれはもったいないと私は考えます (もちろん、状況にもよると思いますが)。

データサイエンスでは、なぜそうなるかが非常に重要な点です。一切数式が書かれていなければ、言葉で説明されたことを鵜呑みにするしかありません。もし間違っていても、検証する術がないかもしません。また、言葉には誤解を生む余地があり、数式の意味を言葉で説明して間違ってしまうケースもあります。

数式は考える糧です。また数式はユニバーサルでもあります。私が留学した時も、当初は英語がよくわかりませんでしたが、数式なら理解できました。嫌われ者の数式の重要性をもっと伝えていきたいと思っています。

―データサイエンスの分野では女性の研究者がまだまだ少ないのですが、女性を増やしていくにはどうすればいいのでしょうか。

周りの環境も大きな要因の一つになっているように感じます。私が博士課程に進もうと決めたときにも、「女の子だから」と反対されたことがあります。それでも私の場合は、家族のほとんど (特に母や祖父) が応援して背中を押してくれましたし、今はさらに夫の理解もあります。環境に恵まれていたと最近よく実感します。地方では、県外に出すことすら抵抗がある家庭も少なくないように思います。そうした旧来の風土を一から変えていくには相当の時間がかかると思います。

また、これも私の経験からなのですが、女子学生の中には周囲にロールモデルとなる優秀な女性の先生が少ないと、不安に襲われることもあるかもしれません。「この道に進んではたして女性の自分がやっていけるのか」と。ですから、まずは理工系の科目を教える優秀な女性の先生を、大学だけでなく、中高でも増やしていく(中高では生徒指導の重みが非常に大きいので基準は異なるかもしれませんが)。「鶏が先か卵が先か」かもしれませんが、女性の先生が、当たり前に難しい数式を解いているのを見れば、「女性だから」というバイアスを弱められるのではないでしょうか。

数学や統計、データサイエンスの分野は、紙と鉛筆、そしてパソコンがあればどこでも取り組むことができると思います。今はコロナ禍で講義もオンラインが多くなり、私も自宅で仕事をする時間が増えています。データサイエンスの分野は理工系の中でも女性が進出しやすい分野だと思いますよ。

Profile 廣瀬 雅代

統計数理研究所 データ科学研究系助教などを経て、2019年から九州大学 マス・フォア・インダストリ研究所助教。統計的理論を用いた小区分ごとの統計的推測法の研究や、その応用に携わる。さらに証拠に基づく政策立案(EBPM:Evidence Based Policy Making)に向けた統計的推測法の確立を通し、社会貢献を目指している。著書に「サンプリングって何だろう―統計を使って全体を知る方法」(共著、岩波書店)。