読者です 読者をやめる 読者になる 読者になる

声優統計

声優統計は声優を科学します。

TCVV白書 vol.14 レビュー

コミックマーケット81で頒布されたTCVV(声優はVisualに出るな!会議:http://www.tcvv.org/)の新刊・TCVV白書 vol.14のレビューを行う。
本稿で主に扱うのは3章:「TCVV短観と専門雑誌における掲載率の相関」である。

記事の主張

新刊の目玉記事でもある3章の研究記事の論旨は以下の通りだ。

TCVV短観と呼ばれる独自の統計量(1章で論じられている)と、専門雑誌における掲載率(2章で論じられている)の相関関係を調べた。
スピアマンの順位相関係数を算出したところ、その値は0.27であり、弱い相関〜相関無し、と見なすことが出来る。
つまり、出演数と声優雑誌における掲載率には関係が無さそうである。
その理由として、声優誌には「今スグ売りたい人」が載っている広告媒体であるのに対してTCVV短観が現状出演数が多い旬の声優を表す指標であることを指摘している。

統計学的問題点

はっきりいってこれは統計的詐術である。
このような状況下で順序統計量を用いるべきではない。

その前に登場する統計量の定義を簡単に述べておこう。
TCVV短観は「TVアニメのレギュラー数を(直近クールほど大きな重みをつけて)4クール分(加重)平均した値」である。
「専門雑誌の掲載率」とは声優グランプリにおける「純グラビアページ」の中で、個人が占有する割合。複数人掲載の場合は人数で除算。

さて、統計的素養のある皆さんならもうお分かりだろう。
順位相関係数を計算する対象であるランキングは、上述した二つの「連続値」の統計量から計算された値なのだ。
つまり、元々の統計量にあった順位間の距離の情報が落とされた状態で相関関係を調べているのだ。
それで「相関があるとは言えない」というのは詐術と言われても仕方が無い。

順位相関係数は、元々順序統計量として得られ、それ以上どうしようもないデータをなんとかして活用するために考えだされたものだ。
例えば、一昔前に流行った「声優140人ソート」の結果「のみ」を使って何か述べたい、という場合、順位相関係数は有力な選択肢だ。
だが、この局面はそうではない。

さらに、p.15に載っているデータを確認すると詐術っぽさはさらに深まる。
掲載率順位12〜14位に注目して欲しい。順に片岡あづさ、原紗友里、阿澄佳奈とされている。
勘のいい方は分かるだろう、これら3人はなんとかというユニットでまとまった掲載をされたものを、便宜的に順位を与えたものと考えられる*1
5章でなんか都合のいい事を言ってる裏でこの順位付けは、意図的に相関係数を下げたと見られても仕方が無い。

ちょっと上の脚注で述べたように、連続値の全体データが得られていないので推測の域を出ないが、おそらく元の連続値で相関分析を行えばもう少し高い相関が得られるはずである。

その他の問題点

当該記事で指摘されているように、一誌からのデータというのは偏りがあり適切ではない。
私見だが最近だと声優グランプリより声優アニメディアやVoice Newtypeの方がアニメ番組のタイアップ記事をグラビア付きで組む事が多いように感じる。
その点でも調査範囲を広げることは求められる。

また、TCVV短観と雑誌掲載率の相関が無かったとしても、個々の統計量が「TVアニメ出演数」や「ビジュアル活動」を表す適切な指標でなかった場合、当該記事のような主張を導く事はできない。
TCVV短観は継続的に算出されており、「間違った」指標だとは思わないが正確な指標と言えるかどうかは疑問が多く、その一端を後述する。

加えて、これは単純な疑問なのだが。
TCVV的に、声優の出演数と声優雑誌の掲載率に相関が「無い」ことを示せたとして、それがTCVVの主張をどのようにサポートするのだろうか。
それは、TCVV的「声優の本分で無い活動」が、「声優の本分」であるところのアニメ出演に影響を「与えない」ことを示すことになり、TCVVの主張する「声優のビジュアル化による力量不足」という根底を否定することになるのではないだろうか。

私見

上でも書いたが、連続値であれば相関は得られると私は考えている。
それは、TCVVが主張するような「CDやライブの販促記事」も声優雑誌には多いが、同じ販促でも「アニメ番組」の販促記事も十分に含まれており、一部の「勝ち組」と固定の連載(それは一部重複する)を除けば、何のタイアップも無しに雑誌に取り上がられる事はむしろ難しい、という現状があると考えているからだ(コエトーークvol.3, スタジオしもばやし, C81 も参照のこと。)
従って、声優雑誌の露出は出演数との強い相関を持つ分布と、まったく独立な分布との重ね合わせであると考えるのが妥当である。
後者はノイズとして振る舞うため、そこそこの相関が得られると予想される。

また、声優雑誌にアニメ番組タイアップで露出する場合は、当該番組内での「重要度」が大きな影響を及ぼすと考えられる。大雑把に言えば、キャスト順だ。
主役、準主役、サブレギュラーといった重み付けがTCVV短観に含まれていない以上、そこで相関が下がる要因は存在する。
「TVアニメシーンにおける声優の存在感」を示すために重み付けがどの程度有効かは議論の余地はあるが、そのような統計量についても検討する必要はある。

良い点

そもそもこういうレビューを書ける叩き台としてフォーマットがきちんとしているという点は現状の声優批評シーンにおいては評価されるべきだろう。
TCVVは継続して調査・発表を続けており、検証可能性を確保していることは声優統計も見習うべきだろう。
調査方法やデータ入手元も概ねに明らかにされており、上ではサボっているが、自力で追試することは理論上可能である。
強いて言えば、「純グラビアページ」の定義をもう少し丁寧に述べて欲しいところだ。

まとめ

目に見えて穴があったのでdisってみた。

声優統計hackathon!!!

というわけで、声優統計ひとりでできるもん!と題してちょっと頭の中にあったモデルを実践してみました。
お題:「声優キャスティングトピックモデル」。

事前知識

自然言語処理の分野には「トピックモデル」と呼ばれるモデルがある。

ものすごくざっくり説明すると、文章(の一塊)を単語の集まりでとらえた時に、その文章が「何について」の文章かで、どういう単語が良く登場するか、という「分布」が変化する、というようなことを考える。
ここで、「何について」という漠然とした「話題」を、「トピック」と呼ぶ。
例えばトピックとは、新聞における「政治」「国際」「経済」「社会」というような区分けだったり。
ブログ記事における(タグ付けで表記される)「日記」「感想」とか「アニメ」「ドラマCD」みたいなやつだったりする。

ここで問題になるのが、ひとつの文章は実際にはひとつの「トピック」では完結することはまずない、ということだ。
新聞のニュースは、主に何について書いてあるかで分類してあるけど、実際には個々の事象は絡み合ってるから当然他分野についての言及は避けられない、というようなものが典型的だ。

そこで、普通は「トピック混合モデル」というものを使う。
文章はいくつかのトピックが含まれているが、それは別に均等ではなく、何らかの比率で混合されていると考える。
文章の中の各単語は、その混合比率に従って選ばれたトピックの中から、典型的な単語が選ばれた結果だ、と解釈する。

概要

ここで声優統計的想像力である。

アニメには「トピック」と呼べるものは存在する。
ターゲット層に応じた萌えやカップリングのようなフック、ギャグやラブコメなのかバトルものなのかといった様式、はたまたひょっとするとスタッフに誰それが入っているからといったことによる(「シャフト声優」といった概念が典型的な)コネ・縁故があり得るかもしれない。
そして、全てのアニメは、トピック一つでは十全に説明できるものではない。
また、声優にはある程度得意な「トピック」分野が決まっている。まぁそれは観測範囲という奴なのだが、10歩譲ってそのようなキャスティング傾向があることを我々は感覚的に知っている。

従って、ひとつの(主にアニメ)作品を文章に見立てて、声優をひとつの単語と見立てることでキャスティングの文法の背後にはどのような「トピック」があるのかあぶり出すことが出来るかもしれない。

モデル

モデルはLatent Dirichlet Allocation(LDA)を用いる。
詳しい説明は省略する。
ぐぐれ。

実験

キャスティングデータをスクレイピングにより集めた。
今回対象としたのは.lain (http://lain.gr.jp/) に掲載されているアニメデータベースのキャスティングデータである。
http://lain.gr.jp/mediadb/media/xxx を総当たりするという頭の悪いクローリングで2922件のキャスティングデータを集めた。
表記揺れを含めて、のべ2459人の声優が含まれている。

Collapsed Gibbs SamplingによってLDAを推定した。
LDAにおけるトピック数kはパラメータであり、予め指定する必要がある。
今回はどんな感じになるかを目で確認するのが目的なので、いろんな数値でやってみて解釈しやすい値を発見した。要するに適当
最終的に、k=15とした。

推定されたLDAモデルを用いて、各トピックの特徴語(=トピックで典型的な声優さん)を上位10件出力し、トピックの解釈を試みた。

結果

とりあえず初期解依存性がめちゃくちゃ高いので毎回結果が全然違うことを断っておく。
その上でここでは、ある程度典型的な解で解釈しやすく、また興味深いものを例として挙げるにとどめる。

1: 山口勝平, 高木渉, 緒方賢一, 森川智之, 林原めぐみ, 高山みなみ, 千葉一伸, 井上喜久子, 茶風林, チョー
2: 能登麻美子, 沢城みゆき, 堀江由衣, 田村ゆかり, 釘宮理恵, 生天目仁美, 桑谷夏子, 渡辺明乃, 新谷良子, 高橋美佳子
3: 竹本英史, 大友龍三郎, 広橋涼, 桑島法子, 麻生智久, 青野武, 田中真弓, 緑川光, 神田朱未, 進藤尚美
4: 金野潤, 藤原啓治, 小西克幸, 釘宮理恵, 入野自由, 水樹奈々, 宮野真守, 古島清孝, 四宮豪, 榎本温子
5: 折笠愛, 飛田展男, 三石琴乃, 置鮎龍太郎, 菊池正美, 横山智佐, 島田敏, 矢島晶子, 天野由梨, 冬馬由美
6: 高橋広樹, 松山鷹志, 木内秀信, 岩崎征実, 甲斐田ゆき, 安元洋貴, 郷田ほづみ, 前田剛, 竹内順子, 津田健次郎
7: 宮下栄治, 伊丸岡篤, 安元洋貴, 白石稔, 川原慶久, 飯田浩志, 早坂愛, 河本邦弘, こぶしのぶゆき, 小野大輔
8: 豊崎愛生, 大原崇, 井口裕香, 戸松遥, 矢作紗友里, 岡本信彦, 花澤香菜, 藤村歩, 金光宣明, 喜多村英梨
9: 田中晶子, 小幡記子, 宮坂俊蔵, ひと美, あおきさやか, たかはし智秋, 後藤邑子, 氷青, 村井かずさ, 後藤麻衣
10:林原めぐみ, 三木眞一郎, 子安武人, 関智一, うえだゆうじ, 飯塚雅弓, 岩男潤子, 小林清志, 川上とも子, 長沢美樹
11:川澄綾子, 能登麻美子, 川上とも子, 藤原啓治, うえだゆうじ, 木村亜希子, 平松晶子, 鈴木千尋, 根谷美智子, 野田順子
12:福山潤, 浪川大輔, 小西克幸, 森川智之, 石田彰, 朴路美, 鈴村健一, 櫻井孝宏, 三木眞一郎, 子安武人
13:酒巻光宏, 四宮豪, 近藤隆, 大須賀純, 儀武ゆう子, 川上貴史, 中西英樹, 奈良徹, 堂坂晃三, 坂巻学
14:八奈見乗児, 野沢雅子, 鈴置洋孝, 永井一郎, 古谷徹, 郷里大輔, 千葉繁, 塩沢兼人, 佐藤正治, 三ツ矢雄二
15:能登麻美子, 杉本ゆう, 折笠富美子, くじら, 堀内賢雄, うすいたかやす, 浅野まゆみ, 松本大, 麻生智久, 中博史

考察

分かったような分からないような、ゆるやかなまとまりが見て取れるだろう。
トピック2やトピック12、トピック14などにはなかなか「ひとまとまり」と言う説得力が感じられる。

特筆すべきはトピック8だ。
割と最近人気の若手女性声優が並ぶ中に、男性(ヘタレ)主人公色の強い岡本信彦と、男性向けアニメかぁ?という印象の男性が並んでいる。
これはいわゆる、「女性ハーレムアニメ」的トピックだと考えられる。
男性性を決定的に排除した「日常系」トピックはここには表れていない*1代わりに、学園ものとかで背後で男性モブがぎゃーぎゃー言ってそうなアニメのイメージが、件の男性声優にwikipediaを参照すると浮かび上がってくるだろう。

まとめ

声優キャスティングトピックモデルの可能性を示した。

しかしそもそも解が全然安定しないなどの問題点も多い。
そもそもこの記事はデータ集めからまとめまでを1日でやっているハッカソンなのでまとまる訳が無いのでそこは責めないで欲しい。
今後の課題をまとめておく。

  • 綺麗なデータ
    • 今回.lainを選んだ理由は特にない。パーサを途中まで書きかけてあったから、というだけ
    • 表記揺れヤバい
  • キャスティングボードを握ってそうなスタッフ陣やレーベル等を「単語」に加える
  • 時系列変化を考慮していない
    • 若い頃と30歳以降では起用のされ方は確実に違う
    • 流行のアニメトピックも違う
  • アニメの長さや出番による重み付け
    • 1クールと4クール、さらには長寿アニメに至るまで、完全に等価な「1キャスティング」として扱っている
    • 主役とサブに関する差もつけていない

声優統計hackathon 0日目

コミケ声優島お疲れさまでしたー。

いろいろと思うところがありますが。
声優とかアニメとか、文系っぽい分野だからこそ「エセ科学」が入り込む余地ってでかいよねー(棒読み)みたいなことを沸々と考えています。
自分が手を動かした成果も出さずに他所の成果をdisるのはカッコよくないと思うのですが。
ちゃんとエセ統計はきちんと指摘しつつも、自分独自の声優統計を切り開いて行きたいです。

フリです。

声優統計hackathon マイナス1日目

手を動かす前に、理論的な由無し事を少し。
という訳で、本日のお題。
「声優言及数の生成モデル」。

概要

先行研究:http://d.hatena.ne.jp/kkobayashi_a/20111111/p1

さて、上述のid:kkobayashiの研究を契機に、声優統計でも「より筋のいい」モデルを使って声優現象を説明しようという機運が高まって来た(え?)。
事実、先行研究における「声優の言及はポアソン過程である」という仮定はもっともらしい。
しかし、「声優のブレイク」という現象は、そのアナロジーで言えばポアソン過程における「到着率」の変化、と考えられる。
先行研究は、そのような変化をモデルに取り入れられていない。

そこで、筆者はそのようなトレンドの変化を取り入れたモデルを提案する。
そして、実際にデータを用いてモデルを当てはめて、人間の実感にあった「ブレイクした声優」を示すだけでなく、「人気に陰りのある*1声優」に関しても一定した評価を与えることが出来ることを示…せたらいいな。

時系列上に表れるデータの表し方

ここで流用するのが、トピックモデルにおいてトピックの時系列変化を考慮したモデルであるTopic Over Timeの考え方である。
TOTに関しては声優統計のメンバであるid:reposeのブログ記事にまとまっている。
http://d.hatena.ne.jp/repose/20101016/1287158398
あれ?まとまってない?

…簡単に要約しよう。
TOTにおける文書生成モデルは、通常のトピックモデルに従って文書が生成された後に、 Beta(\alpha, \beta)に従った確率変数によってその文書に0 \leq t \leq 1に正規化された「タイムスタンプ」を押す。
…いやいや待ってくれ、落ち着いて聞いて欲しい。別にトピックモデルについて理解する必要は無い。
要は、ベータ分布に従って0から1の間の変数を生成して、その値を「ある時間的期間」上の位置とする、というのがTOTのアイデアだ。
ベータ分布に関する直感的な理解には、定番だがこのページが役立つ。
http://www.kwansei.ac.jp/hs/z90010/sugakuc/toukei/beta/beta.htm
Wikipediaは式しか無くてダメだ。

右肩上がりのブレイクを示すグラフの形がある一方、右肩下がりや山なりのグラフなどのパターンがあることが分かるだろう。
これを利用する。

提案モデル

声優言及生成モデルは以下の通りである。
分かりやすさ優先でちゃんぽんな書き方になっているが許せ。
あと本当はグラフィカルモデルも描きたかったがまったく時間がなかった。

 n_i \sim Poisson(\lambda_i)
for  j \in 0 \ldots n_i
    t_{ij} \sim Beta(\alpha_i , \beta_i)

ここで、
ハイパーパラメータ\lambda_i:声優iの年間言及数を制御するポアソン過程の「到着率」
言及数n_i:声優iの年間言及数
言及時刻 t_{ij}:声優iのj番目の言及の言及時刻

モデル推定とブレイク推定

さて、我々の目的はブレイク推定である。
ブレイクか否かを判定するためには、実はポアソン過程はこのモデルにおいては大した役割を果たしていない。単に全体言及数を制御しているだけである。
というわけで、ベータ分布を推定すればいいのだが、これは生の言及数と言及時刻のデータを(時刻を正規化した上で)ベータ分布に当てはめてやればいいだけである。

では、ブレイクはどのように推定するか。
筆者が提案するのは、ここでまたしても古き良き統計的手法を用いようというものである。
すなわち、「尖度」と「歪度」だ。
尖度(Wikipedia):http://ja.wikipedia.org/wiki/%E5%B0%96%E5%BA%A6
歪度(Wikipediaが分かりにくすぎたので適当なページ):http://www.weblio.jp/content/%E6%AD%AA%E5%BA%A6

ここでは直感的な理解で構わない。
つまり、

  • 尖度が大きいほど、派手な人気変動である
  • 歪度が正であれば、人気の凋落である
  • 歪度が負であれば、人気の上昇である

実際には、歪度>0が即「消えた」声優にはならないことに留意。なぜなら、年の初めにブレイクが起こって、その後後続が無かった場合歪度は大きくなるからである。
とはいえ、実際そういう振る舞いをする声優は「一発屋」とか言われてるんだろうから、似たような何かをとらえていることには違いない。
「ブレイク」をある種の壁を越える事だと定義するならば、歪度<0をその閾値することに大きな問題は無いように思える。
そして、そのブレイク度合を表すパラメータが、尖度だ。

最後になるが、尖度および歪度はベータ分布のパラメータがあれば計算できる。
…おっとそこで「直接生データから尖度と歪度計算する方がもっと『まっとう』じゃね?」と言ったそこの君、鋭いね。
俺もそう思要検証、というか、先行研究でもあるように、生データがばらつき過ぎているので、無理矢理綺麗なモデルに当てはめておかないと外乱がでかいんじゃないか、という予測がなりたつ。

結論

データが欲しいです。

書いた感想

tex記法使いにくいしよく分からんところでハマるのでいやだ。

来年から本気出します

作ったままで何も書かないのもアレなのでなんか書こう。というかベータテストらしいことをしよう。


とりあえず、来年からここで何かやります。
来年から、というと無理っぽいので、年末に何かやりましょう。
どうせ年末年始は研究もやる気でないだろうし。論文書かないと締め切り近いからやばいけど。


というわけで、29…はコミケなので、30、31ぐらいで声優統計はっかそんてきな何かをやりたいなーと。
誰も気付いてくれなかったら一人でやります。
みなさんやる気だけは(失礼)あるみたいだし独自に勝手に動いてるし、そろそろなんか大きな目標を持って動きたいなぁとか思わないでもないのよ?


そういう柄じゃないだろみんな、と言われるとそれはそうなのだが、やっぱり一人で出来ることとと、複数人だから出来ることって、あるよね。
それがかの地で最先端に触れて唯一絶対無二に痛感したことだからこそ。
一匹狼の手習いを離陸させたいという思いが強まっているのですよ。


自分的やりたことりすとー。

  • データスクレイピング
    • 声優名リスト
    • 声優-作品"出演"リスト
    • 作品-スタッフ"関係者"データベース
  • ざっくり分析
    • 声優共演ネットワーク分析
    • 声優共演バスケット分析
      • 相関ルール分析
      • 可能であれば、スタッフ(特に音響監督)も
    • 声優共演トピック分析
      • document - topicモデルを陽に適用可能
      • LDA variantsを次々と試す
  • データ収集機構の整備
    • 手入力できて永続化されるインターフェイスの整備
      • 俺たちがやるのか、wiki的にするのか
    • 自動収拾機構の整備
      • そんなものが必要なのか
  • キャスティング予測アルゴリズムの開発
    • ネタ


はてな記法で書いてみたけどどうかな。