声優統計

声優統計は声優を科学します。

声優統計hackathon!!!

というわけで、声優統計ひとりでできるもん!と題してちょっと頭の中にあったモデルを実践してみました。
お題:「声優キャスティングトピックモデル」。

事前知識

自然言語処理の分野には「トピックモデル」と呼ばれるモデルがある。

ものすごくざっくり説明すると、文章(の一塊)を単語の集まりでとらえた時に、その文章が「何について」の文章かで、どういう単語が良く登場するか、という「分布」が変化する、というようなことを考える。
ここで、「何について」という漠然とした「話題」を、「トピック」と呼ぶ。
例えばトピックとは、新聞における「政治」「国際」「経済」「社会」というような区分けだったり。
ブログ記事における(タグ付けで表記される)「日記」「感想」とか「アニメ」「ドラマCD」みたいなやつだったりする。

ここで問題になるのが、ひとつの文章は実際にはひとつの「トピック」では完結することはまずない、ということだ。
新聞のニュースは、主に何について書いてあるかで分類してあるけど、実際には個々の事象は絡み合ってるから当然他分野についての言及は避けられない、というようなものが典型的だ。

そこで、普通は「トピック混合モデル」というものを使う。
文章はいくつかのトピックが含まれているが、それは別に均等ではなく、何らかの比率で混合されていると考える。
文章の中の各単語は、その混合比率に従って選ばれたトピックの中から、典型的な単語が選ばれた結果だ、と解釈する。

概要

ここで声優統計的想像力である。

アニメには「トピック」と呼べるものは存在する。
ターゲット層に応じた萌えやカップリングのようなフック、ギャグやラブコメなのかバトルものなのかといった様式、はたまたひょっとするとスタッフに誰それが入っているからといったことによる(「シャフト声優」といった概念が典型的な)コネ・縁故があり得るかもしれない。
そして、全てのアニメは、トピック一つでは十全に説明できるものではない。
また、声優にはある程度得意な「トピック」分野が決まっている。まぁそれは観測範囲という奴なのだが、10歩譲ってそのようなキャスティング傾向があることを我々は感覚的に知っている。

従って、ひとつの(主にアニメ)作品を文章に見立てて、声優をひとつの単語と見立てることでキャスティングの文法の背後にはどのような「トピック」があるのかあぶり出すことが出来るかもしれない。

モデル

モデルはLatent Dirichlet Allocation(LDA)を用いる。
詳しい説明は省略する。
ぐぐれ。

実験

キャスティングデータをスクレイピングにより集めた。
今回対象としたのは.lain (http://lain.gr.jp/) に掲載されているアニメデータベースのキャスティングデータである。
http://lain.gr.jp/mediadb/media/xxx を総当たりするという頭の悪いクローリングで2922件のキャスティングデータを集めた。
表記揺れを含めて、のべ2459人の声優が含まれている。

Collapsed Gibbs SamplingによってLDAを推定した。
LDAにおけるトピック数kはパラメータであり、予め指定する必要がある。
今回はどんな感じになるかを目で確認するのが目的なので、いろんな数値でやってみて解釈しやすい値を発見した。要するに適当
最終的に、k=15とした。

推定されたLDAモデルを用いて、各トピックの特徴語(=トピックで典型的な声優さん)を上位10件出力し、トピックの解釈を試みた。

結果

とりあえず初期解依存性がめちゃくちゃ高いので毎回結果が全然違うことを断っておく。
その上でここでは、ある程度典型的な解で解釈しやすく、また興味深いものを例として挙げるにとどめる。

1: 山口勝平, 高木渉, 緒方賢一, 森川智之, 林原めぐみ, 高山みなみ, 千葉一伸, 井上喜久子, 茶風林, チョー
2: 能登麻美子, 沢城みゆき, 堀江由衣, 田村ゆかり, 釘宮理恵, 生天目仁美, 桑谷夏子, 渡辺明乃, 新谷良子, 高橋美佳子
3: 竹本英史, 大友龍三郎, 広橋涼, 桑島法子, 麻生智久, 青野武, 田中真弓, 緑川光, 神田朱未, 進藤尚美
4: 金野潤, 藤原啓治, 小西克幸, 釘宮理恵, 入野自由, 水樹奈々, 宮野真守, 古島清孝, 四宮豪, 榎本温子
5: 折笠愛, 飛田展男, 三石琴乃, 置鮎龍太郎, 菊池正美, 横山智佐, 島田敏, 矢島晶子, 天野由梨, 冬馬由美
6: 高橋広樹, 松山鷹志, 木内秀信, 岩崎征実, 甲斐田ゆき, 安元洋貴, 郷田ほづみ, 前田剛, 竹内順子, 津田健次郎
7: 宮下栄治, 伊丸岡篤, 安元洋貴, 白石稔, 川原慶久, 飯田浩志, 早坂愛, 河本邦弘, こぶしのぶゆき, 小野大輔
8: 豊崎愛生, 大原崇, 井口裕香, 戸松遥, 矢作紗友里, 岡本信彦, 花澤香菜, 藤村歩, 金光宣明, 喜多村英梨
9: 田中晶子, 小幡記子, 宮坂俊蔵, ひと美, あおきさやか, たかはし智秋, 後藤邑子, 氷青, 村井かずさ, 後藤麻衣
10:林原めぐみ, 三木眞一郎, 子安武人, 関智一, うえだゆうじ, 飯塚雅弓, 岩男潤子, 小林清志, 川上とも子, 長沢美樹
11:川澄綾子, 能登麻美子, 川上とも子, 藤原啓治, うえだゆうじ, 木村亜希子, 平松晶子, 鈴木千尋, 根谷美智子, 野田順子
12:福山潤, 浪川大輔, 小西克幸, 森川智之, 石田彰, 朴路美, 鈴村健一, 櫻井孝宏, 三木眞一郎, 子安武人
13:酒巻光宏, 四宮豪, 近藤隆, 大須賀純, 儀武ゆう子, 川上貴史, 中西英樹, 奈良徹, 堂坂晃三, 坂巻学
14:八奈見乗児, 野沢雅子, 鈴置洋孝, 永井一郎, 古谷徹, 郷里大輔, 千葉繁, 塩沢兼人, 佐藤正治, 三ツ矢雄二
15:能登麻美子, 杉本ゆう, 折笠富美子, くじら, 堀内賢雄, うすいたかやす, 浅野まゆみ, 松本大, 麻生智久, 中博史

考察

分かったような分からないような、ゆるやかなまとまりが見て取れるだろう。
トピック2やトピック12、トピック14などにはなかなか「ひとまとまり」と言う説得力が感じられる。

特筆すべきはトピック8だ。
割と最近人気の若手女性声優が並ぶ中に、男性(ヘタレ)主人公色の強い岡本信彦と、男性向けアニメかぁ?という印象の男性が並んでいる。
これはいわゆる、「女性ハーレムアニメ」的トピックだと考えられる。
男性性を決定的に排除した「日常系」トピックはここには表れていない*1代わりに、学園ものとかで背後で男性モブがぎゃーぎゃー言ってそうなアニメのイメージが、件の男性声優にwikipediaを参照すると浮かび上がってくるだろう。

まとめ

声優キャスティングトピックモデルの可能性を示した。

しかしそもそも解が全然安定しないなどの問題点も多い。
そもそもこの記事はデータ集めからまとめまでを1日でやっているハッカソンなのでまとまる訳が無いのでそこは責めないで欲しい。
今後の課題をまとめておく。

  • 綺麗なデータ
    • 今回.lainを選んだ理由は特にない。パーサを途中まで書きかけてあったから、というだけ
    • 表記揺れヤバい
  • キャスティングボードを握ってそうなスタッフ陣やレーベル等を「単語」に加える
  • 時系列変化を考慮していない
    • 若い頃と30歳以降では起用のされ方は確実に違う
    • 流行のアニメトピックも違う
  • アニメの長さや出番による重み付け
    • 1クールと4クール、さらには長寿アニメに至るまで、完全に等価な「1キャスティング」として扱っている
    • 主役とサブに関する差もつけていない