「紅白歌合戦の勝敗」は「歌詞の感情スコア」から予測できるか? 昨年みごと的中させたソケッツが今年も予測!

紅白歌合戦の勝敗を「歌詞」から予測する・・

そんなことできるの?
いや、歌詞と勝敗に因果関係なんてないでしょ?
そう思うのが普通かもしれない。

「歌詞の感情分析と勝敗の因果関係と結び付けるのは難しいものがあると思いますが、そこをあえて、この感情分析と過去の勝敗のみで他の相関・要素を入れずにシンプルに分析していくことにします」として、2016年、昨年の紅白歌合戦を歌詞の感情スコアを分析し、勝敗の予測モデルを作ったのがソケッツだった。

株式会社ソケッツは音楽や映像、書籍などを中心とした検索・レコメンド・ストリーミング・データ提供・アナリティクスなどのデータ関連サービスを行っているデータベースサービス会社だ。
同社が作る感性メタは、熟練スタッフが実際に商品を「見て」「聞いて」「読んで」約2,000項目に及ぶ感覚表現メタをチョイスした人力メタデータで、ディープラーニングなどの機械学習の教師ありデータに活用されている。

ソケッツは昨年、紅白歌合戦に出場した白組、紅組の各楽曲の歌詞データに現れるキーワードの中から、感情に関するフレーズを抽出し、幸福・恋愛、好き・喜び、安らぎ、哀しみなど10種類に分類した。しかし、楽曲そのものが勝負の基準になっているわけではない紅白歌合戦、数時間にも及ぶ対抗形式で衣装はじめ、あらゆる演出を含めて歌や演奏を披露、そのパフォーマンスに対する勝敗の決定となる。やはり一見すると、感情スコア値やグラフを見ても勝敗との関連は見いだせなかった。
そこで同社はロジスティック回帰分析で予測モデルを作成し、相関関係をさらに深掘りした。その結果、昨年の予測モデルは正解率96%という精度で正解した。

シンプルなモデルでこれだけの予測ができる感情スコアのさまざまな可能性を検証していくため、2017年も昨年同様この方針で予測を行った。その結果、今年の紅白歌合戦の勝者は「白組」と予想。果たして、今年の紅白歌合戦(明日)の結果の的中率はどうだろうか。

予測についての基本的な方法に昨年との変化はないが、特に「感情コーパスの補正」「未知語のスコア推定」「連語のスコア推定」について、ベースとなる分析エンジンの精度が上がったため、よりきめ細やかに感情を読み取りスコア化することができる。

同予測モデル詳細については同社のホームページで、昨年のレポートが公開されていて、とても興味深いものになっている。

昨年のレポート「紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測してみる」
http://www.sockets.co.jp/kansei/kansei_report01.html


精度の向上による結果の比較

今年の紅白トリを務める、紅組の石川さゆり「津軽海峡・冬景色」と白組大トリ、ゆずの「栄光の架け橋」を例に見る。両楽曲は、過去にも披露されており、昨年もスコア算出していたため、昨年算出したスコアと今年算出したスコア結果を照らし合わせた。


センテンスごとに感情スコアを算出した結果


上段が昨年算出したスコア、下段が進化した今年の感情スコアを元に、センテンスごとに感情10種がどのような構成割合となっているのか表したもの。

昨年は感情に関するフレーズを抽出し、10種ごとに分類、つまり感情を判別するダイレクトなワードからのスコアリングだったが、主に先ほどあげた3点の精度アップにより、いわゆる“行間を読む”ような、複雑な“感情”を読み取ったスコアリングに進化し、平坦だったスコア値が今年は直接的に感情に関するフレーズがなくても感情スコアを算出するようなエンジンになっている。


音楽単位の感情スコア



こうしてセンテンス単位でスコアリングした結果を、楽曲単位、さらに年ごとの紅白別で集計、正規化。「哀しみ」の値が高いと勝つ要因である影響度が高い、という結果であった昨年に対し、今年は、「怒り・苛立ち」次いで「嫌い・不愉快」「もどかしさ」の値が高いと負ける要因になる、という結果となった。




具体的な予測分析方法

予測分析の対象データは、2部制がはじまった第40回1989(平成元年)以降から、今年2017年第68回2017(平成29年)の紅白歌合戦だ。

以下の対象となる各楽曲の歌詞データを、ソケッツ感情分析エンジン(特許出願中)で10種類の感情スコアを算出、それを年代・紅白の組ごとに数値を集計、個々の感情スコア値ごとに正規化した後、ロジスティック回帰分析から構築したソケッツ紅白勝敗予測モデルで予測するという流れになる。

対象期間 第40回1989(平成元年)~第68回2017(平成29年)
対象曲 全29回、全対象楽曲1,396曲(うち紅組712曲、白組684曲)
※ 対象外となる曲:紅組・白組の垣根を越えて披露された楽曲/メドレー
※ 『紅白エディション』はオリジナル楽曲の歌詞を解析対象とする
備考 メドレーなどの除外を含む対象期間全披露楽曲1,509 分析対象率93%



ロジスティック回帰分析とは、ある現象の発生する確率を、その現象の起因を説明するために観測された変数群によって説明をするための分析手法で、今回の目的では、勝ち(1.0)か負け(0.0)かを、その現象の規制を説明するために観測された変数群としてソケッツ独自の感情スコアを利用して予測する。

このとき 勝ち(1)/負け(0) という値で得られている変数は 1 もしくは 0 という 2値のいずれかで示され、この 1 もしくは 0 という値を、他の説明変数が決定付けている、もしくは影響を与えているとみなして分析を行ない、数式を構築する。



今年の予測モデルに当てはめた時の、勝敗実績の正解率


今回対象とした過去28回のうち、予測モデルに当てはめた場合

・紅が勝つ予測:12件中、紅が実際に優勝8件・白が実際に優勝4件:正解率67%
・白が勝つ予測:16件中、白が実際に優勝14件・紅が実際に優勝4件:正解率88%

全28回分トータルで、正解率79%という結果となり、予測モデルから算出された今年の理論値では、今年の紅白勝敗予測は、“白組が勝利”予測であった。




同予測の詳細は以下のレポートより確認ができる。

ソケッツレポートNo.7「紅白歌合戦の曲目の歌詞データから感情を分析、勝敗を予測 2年目」
http://www.sockets.co.jp/kansei/kansei_report07.html
関連サイト
株式会社ソケッツ

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム