日本語抽象度辞書「 AWD-J: Abstractness of Word Database for Japanese common words 」

概要

ある物事をどのように表現するのか.
これは,私たちの生活のさまざまな状況で直面する問題のひとつです.
たとえば,移動中にペンを落としてしまったとします.
電話で忘れ物センターで問い合わせる際,「文房具」というと抽象的なのに対し,「白い 3 色ボールペン」というと具体的で,担当者も探しやすそうです.
ある物事を,どのくらい抽象的もしくは具体的に表現するかは,たんに表現上の問題であるだけでなく,表現対象をどのように捉えているのか,また,表現を受け取る人がどのように理解すると考えているのかといった,認知プロセス上の問題でもあります.
表現の抽象性/具体性を数値化すれば,こうした問題を探究する大きな手がかりとなるはずです.

しかし,これまで,英語を対象に抽象度を付与したリソースは多数存在しましたが [1, 2, 3, 4],日本語を対象にした大規模なリソースは存在しませんでした.
そこで,ソーシャル・コンピューティング研究室では,15,220 語の日本語語彙について抽象度を付与した日本語抽象度辞書(AWD-J core)を構築しました.
また,これをベースに,より大規模に抽象度の推定を行ったリソース(AWD-J EX)も合わせて公開しています. 


  • [1] Brysbaert, M., Warriner, A. B., & Kuperman, V. (2013). Concreteness ratings for 40 thousand generally known English word lemmas. Behavior Research Methods, 46(3), 904-911
  • [2] Coltheart, M. (1981). The MRC psycholinguistic database. The Quarterly Journal of Experimen- tal Psychology, 33, 497-505.
  • [3] K ̈oper, M., & im Walde, S. (2017). Improv- ing Verb Metaphor Detection by Propagating Abstractness to Words, Phrases and Individ- ual Senses. Proceedings of the 1st Workshop on Sense, Concept and Entity Representations and Their Applications, 24-30.
  • [4] Turney, P. D., Neuman, Y., Assaf, D., & Cohen, Y. (2011). Literal and metaphorical sense identi- fication through concrete and abstract context. Proceedings of the 2011 Conference on the Em- pirical Methods in Natural Language Processing, 2(2003), 680-690.

データ

 ■最新バージョン
 ・更新日:2019/04/04, AWD-J core, ファイルサイズ:603KB (15220語)
 ・更新日:2019/04/04, AWD-J EX, ファイルサイズ:12.2MB (437299語)

仕様

それぞれ以下を示しています. word=語, score=抽象度(1=もっとも具体的〜5=もっとも抽象的), deviation=scoreの分散, POS=品詞.

WORDSCOREDeviationPOS
東京都175.37名詞
日経新聞174.68名詞
巨大2.251.28名詞
代償2.2749.22名詞
妥当2.838.21名詞
安定334.08名詞

日本語抽象度辞書の構築方法

抽象度を付与する手続きには,先行研究 [1] と同様にクラウドソーシングを用いました. 応用上の観点から,日本語抽象度辞書では,日常でよく使用される語彙に対し優先的に抽象度を付与しました. 使用頻度の集計には,Twitter に投稿されるつぶやきの頻度調査 [5] を使用し, 上位 20,000 語の中から名詞,動詞,形容詞の品詞であった 17,778 語を対象としました. 品詞の判定は mecab-ipadic-NEologd を用いました. 1 回のクラウドソーシングにつき,50 名の調査協力者が 300 語について抽象度を付与しました. 300 語の中には,10 件のキャリブレータワードとし,29 件のコントロールワードが含まれています. キャリブレータワードとは,はじめに抽象度の高い語彙から低い語彙を提示しておくことで調査協力者に抽象度の幅を理解してもらうために用いられる語彙です. 先行研究 [1] に倣い,「シャツ」,「無限」,「ガス」,「バッタ」,「結婚」,「蹴る」,「礼儀正しい」,「口笛」,「理論」,「砂糖」の 10 件を用いました.
また,複数回のクラウドソーシングを行うので,各回でアノテーション基準が変化していないことを示すためコントロールワードを設定し,各回ランダムに配置しました.
抽象度は 1 (最も具体的) から 5 (最も抽象的) の 5 段階の整数値で評価を行いました. 調査協力者への抽象度の定義については次の教示を用いました.

教示内容
このタスクでは日本語の単語についての評価を行っていただきます. 
単語には具体的な単語と抽象的な単語の2種類があります.  
具体的な単語とは,五感の1つを使って直接経験できるような,実際に存在するものや行動を言い表す単語です.
したがって実物を指し示したり実際にやって見せることでその意味を説明することができます (例: 「甘い」を説明するときは砂糖を食べてもらう,「飛ぶ」を説明するときはジャンプしてみせる,「ソファー」を説明するときはソファーを指差すか,ソファーの画像 を見せることで説明できます).  
抽象的な単語とは,直接は経験できないですが,ほかの単語によって説明できるため意味がわかるような単語です (例:「正義」の意味を示す簡単な方法はありませんが,その意味の一部分を含んでいる別の単語を用いて説明することはできます).
このタスクでは,提示された単語が具体的か抽象的かどうかを判断していただきます.  
ただし,具体的な単語と抽象的な単語は明確に分かれるものではない上,単語を理解するための言語によっても異なりますので,それぞれの単語の意味がどれくらい具体的かを5段階で評価してください. 
5点が最も具体的,1点が最も抽象的な単語です
多くの単語を対象としているため,1文字の単語なども登場します.
単語の意味があなたの経験上どれくらい具体的かを常に考えてください.
また,中には意味を知らない単語も登場する可能性がありますが,その際は「この単語を知らない」を選択してください.

上記のタスクの結果,15% 以上の調査協力者が「この単語を知らない」と選択した語彙を除外し,残りを日本語抽象度辞書に登録しました. 内訳は,名詞 12,872 語,動詞 1,971 語,形容詞 377 語です.
なお,アルファベット表記の単語について,‘iPhone’,‘Wii’ などの一部分に大文字を用いることが一般的な単語は,日本語抽象度辞書では全て小文字に統一して登録されています.しかし,クラウドソーシング時には,適宜必要な箇所を大文字表記して調査を行いました.

データ収集は,2018 年 4 月 23 日から 2018 年 7 月 1 日の期間にYahoo!クラウドソーシングを用いて行いました. 3450 名の調査協力者が参加しました(1回の収集にかかる金額は 1,080 円であり,計 69 回の収集により 74,520 円を使用しました).


  • [5] 村山太一, 若宮翔子, 荒牧英治. (2018). WORD GINI: 使用頻度の偏りを捉える指標の提案とその応用,言語処理学会 第 24 回年次大会

AWD-J EXの構築手法

日本語抽象度辞書に登録されている語彙は,15,220 語と日常生活で用いるには十分な量の語彙に対して抽象度の付与を行いましたが,すべてを網羅しているわけではありません. そこで,先行研究 [3] の手法により,学習済み単語分散表現(http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ )を入力とし,AWD-J 全体を学習データとして抽象度の値を出力するニューラルネットワークを構築することで,日本語抽象度辞書に収載されていない語についても抽象度を自動推定しました. AWD-J の 80% を学習データとして残りの 20% について抽象度の予測を行い,実際の値との相関を調べた結果,相関係数 r=0.66 と強い正の相関を得ています. AWD-J EXは,437,300 語を収録しており,その内訳は,名詞 414,218語,動詞 19,861 語,形容詞 3,221 語です.

謝辞

日本語抽象度辞書は,新学術領域研究「脳・生活・人生からの統合的理解にもとづく 思春期からの主体価値発展学(The science of personalized value development through adolescence: integration of brain, real-world, and life-course approaches)」 総括班 JSPS科研費 JP16H06395,D01班 JSPS科研費 JP16H06399 のサポートを得て構築されています.

プライバシーポリシー

奈良先端科学技術大学院大学ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本データを使用して何らかの問題が発生した場合, 提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.