トピックス

「数理・データサイエンスと大学」インタビュー

第16回 東京大学 大学院情報理工学系研究科
附属情報理工学教育研究センター数理・情報教育研究部門 山肩洋子准教授
「実世界データ」をどう取得するか
その方法からしっかり教えたい

山肩洋子氏はメディア情報処理技術を用いて「レシピ作成支援」や「調理ナビゲーション」など、人の食行動を支援する研究に取り組んでいる。その研究内容や、「食」をテーマに選んだ理由、また女性のデータサイエンティストを増やしていくために必要なことなどを聞いた。

加工され変化する物体の「同一性」を認識させる

―山肩先生はどんな研究をされているのですか。

情報処理技術から情報ネットワーク技術、通信システム技術、メディア情報技術などを総合的に扱う電子情報学のなかで、私はメディア情報技術を活用して「食」の課題解決に取り組んでいます。
現在、ネット上には膨大なレシピが溢れています。しかし、調理方法が似たレシピでも、各人が独立したコンテンツとしてレシピを作成しているため混沌とした状況にあり、せっかくのレシピ情報がうまく活かされていません。
そこでレシピの違いを判別可能にする「RecipeLog(レシピログ)」を開発しています。基本のレシピをベースにして、自分のレシピと違うところを修正するだけで、その人独自のレシピが作成できるサービスです。一からレシピを書くのに比べ45%ほどの労力で作成でき、元のレシピとどこが同じでどこが違うのかを明確に区別するデータセットを構築できます。これを使えば我が家の「肉じゃが」の作り方が他の人とどう違うのか、より健康的な「肉じゃが」にするためにはどこを変えたらいいのかなど、その人の知りたい情報を含んだレシピが得られるようになります。

また「RecipeLog」にレシピを登録しておくことで、材料のリストと栄養素情報との紐付けにより摂取した栄養価などを知ることができ、記録しておくこともできます。

山肩洋子准教授らが開発した「RecipeLog(レシピログ)」

―なぜ「食」に着目されたのでしょうか。

料理はプランニングが非常に複雑です。出来上がりの段階で冷たいものは冷たく、温かいものは温かく提供するには高度なプランニングを要します。料理ほど挑戦しがいのあるトピックはありません。

最終的には料理のナビゲーションシステムを実現できればと考えています。調理の仕方を一方的に指示されると煩わしいので、調理者が分からないところ、手順で忘れているところをAIが判断して教えるようにしたいのです。それには、調理者が何をしようとしているかをコンピュータが理解している必要があります。

例えば材料であるリンゴをコンピュータに認識させることはできます。しかし調理されてアップルパイになったとき、見た目も性質も呼び名も違っているものをどう同一と認識させるのか。掘り下げると人間の認知の問題、さらには哲学的な問題にぶつかります。

哲学で「テセウスの船」という命題があるのをご存知ですか。英雄テセウスが乗った船を保存して後世に残そうとする。ところが長い時が過ぎ、朽ちた部品を交換しているうちに、やがてすべての部品が新しいものに置き換わった。その船は果たしてテセウスの船なのか、取り除いた古い部品を集めて船を作ったとすれば、むしろそちらが真のテセウスの船なのではないか、という同一性の問題です。

料理も似ています。リンゴという材料はどこからアップルパイに変わるのか。途中で対象が変化していくものを認識させる研究はなかったので、それなら私がやってみようと思いました。

―難しそうな研究ですね。変化するリンゴをどうやって同一と認識させるのでしょうか。

基本的には映像中でその物体を追跡し続ける「オブジェクトトラッキング」という技術を用います。追跡することで、リンゴと呼ばれていたものは皮を剥かれてもまだリンゴであると認識させるのです。

また、調理者が何を作ろうとしているのかを予測するためには、レシピの情報を持たせ、それと照らし合わせることで、「これはアップルパイをつくろうとしているのだ」と認識させます。

―まるで言葉と概念の関係を探る言語学の世界のようです。そうした研究もデータサイエンスの領域なのでしょうか。

データのマッチングを行うわけですから、データサイエンスの話になります。レシピはもとはテキスト情報ですが、そのままでは記号列でしかないので扱いにくい。そこで自然言語処理技術を使って手順構造のグラフの形にします。すると映像中のリンゴ領域と手順構造グラフの中のリンゴノードが対応づけられる。グラフマッチングという技術でこの対応づけをやっていきます。

将来的には献立作りも支援したい。その家庭で日常的に作っている料理の中から栄養価などを考慮し、料理の組み合わせを提案するシステムをつくりたいと思っています。

コードを組み合わせるだけでも多様なアイデアを実現できる

―山肩先生が大学で担当されている「メディアプログラミング」の講義ではどのようなことを学ぶのですか。

私の研究領域である自然言語処理や画像認識、音響などのトピックを扱います。中心となるのは機械学習で、演習も伴います。データをたくさん集める必要があるため、Webサイトの中から特定の情報を集める技術「Webスクレイピング」の話や、著作権の話などもします。

―講義をする上で重きを置いていることは何でしょうか。

学んだ技術を自分の研究に役立てるためには、各人ごとに異なるデータを扱える必要があります。機械学習用にあらかじめ整理されたデータとは違って、「実世界データ」をどのようにして取ってくるのか、その方法からしっかりと教えています。

私の講義は文系の学生が多いのですが、例えばカメラで写真を撮ることは何を計測していることになるのか。黒つぶれ、白飛びなどの現象はどうして起きるのか。写真はライティングや天気によって色が変わるので、写真で記録するならカラーチャートも一緒に撮っておく必要がある。そういった知識も伝えています。

本学の学生は優秀で、発想もユニークです。音と言語と画像のうち、二つ以上の要素を混ぜたプログラムを組み、レポートを書くという課題で、Web上にある文章から音韻が五七五になっている文を採取してくるプログラムを書いた学生がいました。ずらりと並んだ五七五の俳句のようなフレーズを読んでいると、何かの格言じみてきて面白かったですね。

基本的には配布したコードを組み合わせてつくってもらっているのですが、それでもこんなに多様なことができるのだと、私の方が感心させられました。

親世代こそデータサイエンスを学んでほしい

―データサイエンティストを目指す女性まだまだ少ないですが、この現状をどうすれば変えていけるでしょうか。

データサイエンティストの仕事はリモートワークに対応でき、子育てとの両立も図りやすい。ですが「だから、がんばれ」と発破をかけるまでもなく、すでに彼女たちは十分熱意を持っています。あとは彼女たちのスポンサーである親御さんにどう働きかけ、理解してもらうかだと思っています。

時代は大きく変わりつつあります。働き方改革で、男性も残業が制限され、以前のように長時間働くことができなくなりました。男性が子育てを手伝い、女性も社会に出て働くことが当然になりつつあります。そのときに求められるスキルを女性も養っておけば、より幸せな未来を築くことができるでしょう。

データサイエンスはあらゆる分野で必要とされています。経済学しかり、文学部でも言語や文体を分析しようと思えばデータサイエンスが必要になります。データサイエンスの素養があることは、女性が社会に出た時にアピールポイントにつながりやすい。ご両親も、そうした社会の変化を見据えて、娘さんたちの将来を考えていただきたい。娘さんが「理系に進みたい」と言っても、決して止めないでいただきたいのです。

―日本のデータサイエンスの未来については、どう見ていますか。

世界に比べ、日本は遅れています。お隣の中国はものすごく進んでいます。私の分野の国際学会では、人工知能系、画像系、自然言語処理系、どこに行っても中国人が大半を占めています。

日本に一番必要なのは、大学を出た社会人を再教育するシステムです。今は優れた無料教材がたくさんありますし、東京大学でも講義の映像を公開しています。40歳代の人でも始めようと思えばいつでもデータサイエンスを学べる環境にある。ぜひ今から社会のAI化・DX化の流れに参加してもらいたいと思います。そうでなければ日本だけが取り残されてしまいます。

学生は一番身近な親を通して社会を見ているところがあります。親世代が変わらないと、なかなか子どもも変われません。父親や母親が家のパソコンでプログラミングなどの勉強をしていれば、子供たちもきっと「あの歳でやらないといけないのであれば、私も今から勉強をしておかないと」と思うはずです。

Profile 山肩洋子

福岡県出身。京都大学工学部情報学科に進み、画像認識に興味を持つ。2006年、京都大学大学院情報学研究科知能情報学専攻修了、博士(情報学)。 国立研究開発法人情報通信研究機構ユニバーサルメディア研究センター専攻研究員や、京都大学情報学研究科准教授などを経て、2019年より東京大学大学院情報理工学系研究科准教授。研究分野は知能情報学、教育工学、食のAI。