声優統計

声優統計は声優を科学します。

C85 告知

声優統計、出ます。
http://d.hatena.ne.jp/repose/20131220/1387536317


私は

ソーシャルな声優イベント参加履歴に基づく声優ファン行動の定量化分析

というネタで書いているようです。
我々は未知の部族イベンターの実態を探るためアマゾンの奥地へ飛んだ、というような話です。うそです。
高等なモデルを使ったネタがことごとくポシャったので読み物感重視です、あしからず。


さて、原稿は果たして間に合うのか!
乞うご期待!


あと今回は取り置きフォームというのを作りました。
https://docs.google.com/forms/d/17luXqn93SUFXgZhCQAi4zHKdGPfbelgE7gjL8pEiNVc/viewform
なんか誰の知り合いか書け、という不穏な欄がありますがSPAM避けというか。
寄り合いサークルなので知らないIDがあった時に「おいお前の知り合いだろ」みたいなことになって宙に浮かないようにという話です。
SNSもしくはリアルで交遊関係が多少でもあればお知り合いで。

独り言:
うちも表紙にケーブルのついたメイドさんみたいな声優さんが欲しい

コミックマーケット84 おつかれさまでした

当ブログでは告知もしませんでしたがc84出ました。お疲れ様でした。
http://d.hatena.ne.jp/repose/20130810/1376144816
今回は私個人はスケジュールおよび体調管理の甘さから最終的に未完原稿提出という形で大変心苦しく悔しい結果となりました。
それでも本そのものは無事完売ということで、ありがたいことです。


冬コミにも申し込む予定です。
たぶん更なる投稿者の参入に加えて私がもっとちゃんと頑張るので今回以上にすごい本になるのではないでしょうか。
声優統計は次の次元へ!(なんか適当な煽り

ギャラクシーエンジェルのとある覆面座談会 文字起こし

統計まったく関係無いけどなんとなくやっておきたかったところでいい場所がなかったのでここで。

基本情報

DVD『ギャラクシーエンジェル②・③』限定版を購入し、応募券を送付するともらえた*1ギャラクシーエンジェルすぺしゃるし〜でぃ〜♪」というのがある。
スペシャルドラマ二編に録り下ろしキャラソン3本も入っているという異常にプレミアム感の高い非売品CDだ。
まぁキャラソンはremixされてアルバムに再録されましたが。


んで、この非売品CDにはちゃんとブックレットが付いて来て、そこには
ギャラクシーエンジェル プロデューサー座談会 出たとこ勝負でGO!」
「なるほどGA覆面座談会」
と題された打ち上げの録音の文字起こしが収録されている。びっしり9pも!
ここに書かれていることは(たぶん)他のどこにも収録されていないはずなので*2、にもかかわらず結構重要なことが書かれているので、時効だろうと勝手に判断して一部を抜粋し写経したものをここに記すのである。
おっと、引用ですよ、引用。


ちなみに、獲得条件にあるようにアニメ1期(いわゆるGA無印)の打ち上げ時点での情報であり、その後のゲームGAやアニメ2期以降の内容は基本的に考慮されてないと判断できる。
また、文中における監督2号とは監督O、司会とは宣伝Tであることがコーナーの冒頭に注記されている。

*1:らしい。当時の記憶はないので調べた

*2:これはそれなりに根拠があって当時ブロッコリーにずぶずぶのりょーこファンだった私はGA関連は書籍を含めてかなりコンプしたので再録はなかったはずである。BD-BOXとかで再録されてたらすまん

続きを読む

コミックマーケット83 告知

あ、よかったまだこのブログ使える。

29日土曜日,東テ15-b,声優島の真っ只中にてサークル「日本声優統計学会」名義で「声優統計 第一号」を出します.DTPができる人間がいないのでコピー本です.

内容は次のようなものです.

声優統計入門 (@R_Linux)
声優統計とはそもそも何なのか,何が目的なのかを例題を用いて紹介
Wikipediaの声優PVデータ特性とブレイク判定手法 (@kkobayashi)
WikipediaのPVデータを用いて新人声優のブレイクの定量評価を試みる
キャスティング情報のbag-of-声優モデルを用いた音響監督推定問題 (@MagnesiumRibbon)
キャスティングは音響監督によってのみ決定されるのかという話
ブログを用いた女性声優の結婚時期予測問題 (@y_benjo)
ある女性声優が何ヶ月後に結婚するか?をブログ記事を用いて予測
アニメの内容及びキャスティングを用いないDVD売上予測問題 (@y_benjo)
出演声優やアニメの内容を用いずにDVDの売上を予測

論文誌のパロディー風な体裁にしました.

需要が無いと思うので大した量(50部程度)しか刷っていません.よろしくお願いします.

少ないとの事だったので倍に増やしました.

http://d.hatena.ne.jp/repose/20121226/1356531062

元はと言えば、id:reposeと二人でデート(意味深)したときに
「声優統計これからどーするよー」
「なんかもっとみんなでまとまったことやりたいっすよねー」
「じゃあなんだ、声優島で本でも出す?」
みたいな俺の思いつきで始まり、それからも俺の適当な思いつきをid:reposeが実現してくれたという感じでした。
つまり9割方は@y_benjo先生が作ってくれた本です。


冬コミは声優統計、苦情は便所へ!

TCVV白書 vol.14 レビュー

コミックマーケット81で頒布されたTCVV(声優はVisualに出るな!会議:http://www.tcvv.org/)の新刊・TCVV白書 vol.14のレビューを行う。
本稿で主に扱うのは3章:「TCVV短観と専門雑誌における掲載率の相関」である。

記事の主張

新刊の目玉記事でもある3章の研究記事の論旨は以下の通りだ。

TCVV短観と呼ばれる独自の統計量(1章で論じられている)と、専門雑誌における掲載率(2章で論じられている)の相関関係を調べた。
スピアマンの順位相関係数を算出したところ、その値は0.27であり、弱い相関〜相関無し、と見なすことが出来る。
つまり、出演数と声優雑誌における掲載率には関係が無さそうである。
その理由として、声優誌には「今スグ売りたい人」が載っている広告媒体であるのに対してTCVV短観が現状出演数が多い旬の声優を表す指標であることを指摘している。

統計学的問題点

はっきりいってこれは統計的詐術である。
このような状況下で順序統計量を用いるべきではない。

その前に登場する統計量の定義を簡単に述べておこう。
TCVV短観は「TVアニメのレギュラー数を(直近クールほど大きな重みをつけて)4クール分(加重)平均した値」である。
「専門雑誌の掲載率」とは声優グランプリにおける「純グラビアページ」の中で、個人が占有する割合。複数人掲載の場合は人数で除算。

さて、統計的素養のある皆さんならもうお分かりだろう。
順位相関係数を計算する対象であるランキングは、上述した二つの「連続値」の統計量から計算された値なのだ。
つまり、元々の統計量にあった順位間の距離の情報が落とされた状態で相関関係を調べているのだ。
それで「相関があるとは言えない」というのは詐術と言われても仕方が無い。

順位相関係数は、元々順序統計量として得られ、それ以上どうしようもないデータをなんとかして活用するために考えだされたものだ。
例えば、一昔前に流行った「声優140人ソート」の結果「のみ」を使って何か述べたい、という場合、順位相関係数は有力な選択肢だ。
だが、この局面はそうではない。

さらに、p.15に載っているデータを確認すると詐術っぽさはさらに深まる。
掲載率順位12〜14位に注目して欲しい。順に片岡あづさ、原紗友里、阿澄佳奈とされている。
勘のいい方は分かるだろう、これら3人はなんとかというユニットでまとまった掲載をされたものを、便宜的に順位を与えたものと考えられる*1
5章でなんか都合のいい事を言ってる裏でこの順位付けは、意図的に相関係数を下げたと見られても仕方が無い。

ちょっと上の脚注で述べたように、連続値の全体データが得られていないので推測の域を出ないが、おそらく元の連続値で相関分析を行えばもう少し高い相関が得られるはずである。

その他の問題点

当該記事で指摘されているように、一誌からのデータというのは偏りがあり適切ではない。
私見だが最近だと声優グランプリより声優アニメディアやVoice Newtypeの方がアニメ番組のタイアップ記事をグラビア付きで組む事が多いように感じる。
その点でも調査範囲を広げることは求められる。

また、TCVV短観と雑誌掲載率の相関が無かったとしても、個々の統計量が「TVアニメ出演数」や「ビジュアル活動」を表す適切な指標でなかった場合、当該記事のような主張を導く事はできない。
TCVV短観は継続的に算出されており、「間違った」指標だとは思わないが正確な指標と言えるかどうかは疑問が多く、その一端を後述する。

加えて、これは単純な疑問なのだが。
TCVV的に、声優の出演数と声優雑誌の掲載率に相関が「無い」ことを示せたとして、それがTCVVの主張をどのようにサポートするのだろうか。
それは、TCVV的「声優の本分で無い活動」が、「声優の本分」であるところのアニメ出演に影響を「与えない」ことを示すことになり、TCVVの主張する「声優のビジュアル化による力量不足」という根底を否定することになるのではないだろうか。

私見

上でも書いたが、連続値であれば相関は得られると私は考えている。
それは、TCVVが主張するような「CDやライブの販促記事」も声優雑誌には多いが、同じ販促でも「アニメ番組」の販促記事も十分に含まれており、一部の「勝ち組」と固定の連載(それは一部重複する)を除けば、何のタイアップも無しに雑誌に取り上がられる事はむしろ難しい、という現状があると考えているからだ(コエトーークvol.3, スタジオしもばやし, C81 も参照のこと。)
従って、声優雑誌の露出は出演数との強い相関を持つ分布と、まったく独立な分布との重ね合わせであると考えるのが妥当である。
後者はノイズとして振る舞うため、そこそこの相関が得られると予想される。

また、声優雑誌にアニメ番組タイアップで露出する場合は、当該番組内での「重要度」が大きな影響を及ぼすと考えられる。大雑把に言えば、キャスト順だ。
主役、準主役、サブレギュラーといった重み付けがTCVV短観に含まれていない以上、そこで相関が下がる要因は存在する。
「TVアニメシーンにおける声優の存在感」を示すために重み付けがどの程度有効かは議論の余地はあるが、そのような統計量についても検討する必要はある。

良い点

そもそもこういうレビューを書ける叩き台としてフォーマットがきちんとしているという点は現状の声優批評シーンにおいては評価されるべきだろう。
TCVVは継続して調査・発表を続けており、検証可能性を確保していることは声優統計も見習うべきだろう。
調査方法やデータ入手元も概ねに明らかにされており、上ではサボっているが、自力で追試することは理論上可能である。
強いて言えば、「純グラビアページ」の定義をもう少し丁寧に述べて欲しいところだ。

まとめ

目に見えて穴があったのでdisってみた。

声優統計hackathon!!!

というわけで、声優統計ひとりでできるもん!と題してちょっと頭の中にあったモデルを実践してみました。
お題:「声優キャスティングトピックモデル」。

事前知識

自然言語処理の分野には「トピックモデル」と呼ばれるモデルがある。

ものすごくざっくり説明すると、文章(の一塊)を単語の集まりでとらえた時に、その文章が「何について」の文章かで、どういう単語が良く登場するか、という「分布」が変化する、というようなことを考える。
ここで、「何について」という漠然とした「話題」を、「トピック」と呼ぶ。
例えばトピックとは、新聞における「政治」「国際」「経済」「社会」というような区分けだったり。
ブログ記事における(タグ付けで表記される)「日記」「感想」とか「アニメ」「ドラマCD」みたいなやつだったりする。

ここで問題になるのが、ひとつの文章は実際にはひとつの「トピック」では完結することはまずない、ということだ。
新聞のニュースは、主に何について書いてあるかで分類してあるけど、実際には個々の事象は絡み合ってるから当然他分野についての言及は避けられない、というようなものが典型的だ。

そこで、普通は「トピック混合モデル」というものを使う。
文章はいくつかのトピックが含まれているが、それは別に均等ではなく、何らかの比率で混合されていると考える。
文章の中の各単語は、その混合比率に従って選ばれたトピックの中から、典型的な単語が選ばれた結果だ、と解釈する。

概要

ここで声優統計的想像力である。

アニメには「トピック」と呼べるものは存在する。
ターゲット層に応じた萌えやカップリングのようなフック、ギャグやラブコメなのかバトルものなのかといった様式、はたまたひょっとするとスタッフに誰それが入っているからといったことによる(「シャフト声優」といった概念が典型的な)コネ・縁故があり得るかもしれない。
そして、全てのアニメは、トピック一つでは十全に説明できるものではない。
また、声優にはある程度得意な「トピック」分野が決まっている。まぁそれは観測範囲という奴なのだが、10歩譲ってそのようなキャスティング傾向があることを我々は感覚的に知っている。

従って、ひとつの(主にアニメ)作品を文章に見立てて、声優をひとつの単語と見立てることでキャスティングの文法の背後にはどのような「トピック」があるのかあぶり出すことが出来るかもしれない。

モデル

モデルはLatent Dirichlet Allocation(LDA)を用いる。
詳しい説明は省略する。
ぐぐれ。

実験

キャスティングデータをスクレイピングにより集めた。
今回対象としたのは.lain (http://lain.gr.jp/) に掲載されているアニメデータベースのキャスティングデータである。
http://lain.gr.jp/mediadb/media/xxx を総当たりするという頭の悪いクローリングで2922件のキャスティングデータを集めた。
表記揺れを含めて、のべ2459人の声優が含まれている。

Collapsed Gibbs SamplingによってLDAを推定した。
LDAにおけるトピック数kはパラメータであり、予め指定する必要がある。
今回はどんな感じになるかを目で確認するのが目的なので、いろんな数値でやってみて解釈しやすい値を発見した。要するに適当
最終的に、k=15とした。

推定されたLDAモデルを用いて、各トピックの特徴語(=トピックで典型的な声優さん)を上位10件出力し、トピックの解釈を試みた。

結果

とりあえず初期解依存性がめちゃくちゃ高いので毎回結果が全然違うことを断っておく。
その上でここでは、ある程度典型的な解で解釈しやすく、また興味深いものを例として挙げるにとどめる。

1: 山口勝平, 高木渉, 緒方賢一, 森川智之, 林原めぐみ, 高山みなみ, 千葉一伸, 井上喜久子, 茶風林, チョー
2: 能登麻美子, 沢城みゆき, 堀江由衣, 田村ゆかり, 釘宮理恵, 生天目仁美, 桑谷夏子, 渡辺明乃, 新谷良子, 高橋美佳子
3: 竹本英史, 大友龍三郎, 広橋涼, 桑島法子, 麻生智久, 青野武, 田中真弓, 緑川光, 神田朱未, 進藤尚美
4: 金野潤, 藤原啓治, 小西克幸, 釘宮理恵, 入野自由, 水樹奈々, 宮野真守, 古島清孝, 四宮豪, 榎本温子
5: 折笠愛, 飛田展男, 三石琴乃, 置鮎龍太郎, 菊池正美, 横山智佐, 島田敏, 矢島晶子, 天野由梨, 冬馬由美
6: 高橋広樹, 松山鷹志, 木内秀信, 岩崎征実, 甲斐田ゆき, 安元洋貴, 郷田ほづみ, 前田剛, 竹内順子, 津田健次郎
7: 宮下栄治, 伊丸岡篤, 安元洋貴, 白石稔, 川原慶久, 飯田浩志, 早坂愛, 河本邦弘, こぶしのぶゆき, 小野大輔
8: 豊崎愛生, 大原崇, 井口裕香, 戸松遥, 矢作紗友里, 岡本信彦, 花澤香菜, 藤村歩, 金光宣明, 喜多村英梨
9: 田中晶子, 小幡記子, 宮坂俊蔵, ひと美, あおきさやか, たかはし智秋, 後藤邑子, 氷青, 村井かずさ, 後藤麻衣
10:林原めぐみ, 三木眞一郎, 子安武人, 関智一, うえだゆうじ, 飯塚雅弓, 岩男潤子, 小林清志, 川上とも子, 長沢美樹
11:川澄綾子, 能登麻美子, 川上とも子, 藤原啓治, うえだゆうじ, 木村亜希子, 平松晶子, 鈴木千尋, 根谷美智子, 野田順子
12:福山潤, 浪川大輔, 小西克幸, 森川智之, 石田彰, 朴路美, 鈴村健一, 櫻井孝宏, 三木眞一郎, 子安武人
13:酒巻光宏, 四宮豪, 近藤隆, 大須賀純, 儀武ゆう子, 川上貴史, 中西英樹, 奈良徹, 堂坂晃三, 坂巻学
14:八奈見乗児, 野沢雅子, 鈴置洋孝, 永井一郎, 古谷徹, 郷里大輔, 千葉繁, 塩沢兼人, 佐藤正治, 三ツ矢雄二
15:能登麻美子, 杉本ゆう, 折笠富美子, くじら, 堀内賢雄, うすいたかやす, 浅野まゆみ, 松本大, 麻生智久, 中博史

考察

分かったような分からないような、ゆるやかなまとまりが見て取れるだろう。
トピック2やトピック12、トピック14などにはなかなか「ひとまとまり」と言う説得力が感じられる。

特筆すべきはトピック8だ。
割と最近人気の若手女性声優が並ぶ中に、男性(ヘタレ)主人公色の強い岡本信彦と、男性向けアニメかぁ?という印象の男性が並んでいる。
これはいわゆる、「女性ハーレムアニメ」的トピックだと考えられる。
男性性を決定的に排除した「日常系」トピックはここには表れていない*1代わりに、学園ものとかで背後で男性モブがぎゃーぎゃー言ってそうなアニメのイメージが、件の男性声優にwikipediaを参照すると浮かび上がってくるだろう。

まとめ

声優キャスティングトピックモデルの可能性を示した。

しかしそもそも解が全然安定しないなどの問題点も多い。
そもそもこの記事はデータ集めからまとめまでを1日でやっているハッカソンなのでまとまる訳が無いのでそこは責めないで欲しい。
今後の課題をまとめておく。

  • 綺麗なデータ
    • 今回.lainを選んだ理由は特にない。パーサを途中まで書きかけてあったから、というだけ
    • 表記揺れヤバい
  • キャスティングボードを握ってそうなスタッフ陣やレーベル等を「単語」に加える
  • 時系列変化を考慮していない
    • 若い頃と30歳以降では起用のされ方は確実に違う
    • 流行のアニメトピックも違う
  • アニメの長さや出番による重み付け
    • 1クールと4クール、さらには長寿アニメに至るまで、完全に等価な「1キャスティング」として扱っている
    • 主役とサブに関する差もつけていない

声優統計hackathon 0日目

コミケ声優島お疲れさまでしたー。

いろいろと思うところがありますが。
声優とかアニメとか、文系っぽい分野だからこそ「エセ科学」が入り込む余地ってでかいよねー(棒読み)みたいなことを沸々と考えています。
自分が手を動かした成果も出さずに他所の成果をdisるのはカッコよくないと思うのですが。
ちゃんとエセ統計はきちんと指摘しつつも、自分独自の声優統計を切り開いて行きたいです。

フリです。