歌詞トピック分類 未知の楽曲検索

インターネットWatch
LyricJumperの分析例。「夢と未来」のトピックの歌詞が多い

 ■シンクパワーと産総研、15万曲解析・可視化

 シンクパワーと産業技術総合研究所(産総研)が、歌詞のトピックに基づいて楽曲を検索できる「Lyric Jumper」を歌詞配信サイト「プチリリ」での提供を始めた。PCやスマートフォンのウェブブラウザーから無料で利用できる。

 約240万曲の歌詞データを提供する同社運営のプチリリにおいて、日本語歌詞データの一部である約15万曲を対象に、産総研が開発した「歌詞トピック解析技術」で自動解析して可視化するもの。

 歌詞トピック解析技術では、アーティスト、歌詞、単語という3階層の構造を考慮しながら、歌詞に出てくる単語の出現の仕方により解析。事前に設定された20のトピックとして自動推定する。トピックは、歌詞に使われる単語の偏りを表す確率分布として定義される。例えば「私」「あなた」「涙」「約束」という単語の出現確率が高いトピックに対して「大人の恋愛(女性編)」との名称が、「夢」「明日」「未来」「笑顔」という単語の出現確率が高いトピックに対しては「夢と未来」との名称がラベル付けされる。

 こうした解析データを基に、アーティストごとに歌詞のトピック傾向を可視化したり、トピックの比率が類似し、歌詞の傾向が近いアーティストを表示する機能、興味あるトピックの比率や数の多いアーティスト名をリストアップする機能、アーティストの楽曲をトピックで絞り込んで曲名一覧を表示する機能などが提供される。

 これらの機能により、膨大な曲の歌詞からトピックのつながりをたどって未知のアーティストや楽曲を探したり、アーティストごとの歌詞傾向を俯瞰(ふかん)することができるほか、同じトピックを伝える歌詞表現の多様さに気付くことができるとしている。

 産総研が開発した歌詞トピック解析技術は、科学技術振興機構(JST)戦略的創造研究推進事業ACCELの研究開発課題「次世代メディアコンテンツ生態系技術の基盤構築と応用展開」の一環として開発されたもの。今後は、シンクパワーの歌詞データをさらに活用し、研究開発を進めている「歌詞のレコメンドエンジン」の実用化に取り組むとしている。(インプレスウオッチ)