日本語抽象度辞書「AWD-J: Abstractness of Word Database for Japanese common words」

日本語に抽象度を付与した大規模な辞書

ある物事をどのように表現するのか.これは,私たちの生活のさまざまな状況で直面する問題のひとつです.たとえば,移動中にペンを落としてしまったとします.電話で忘れ物センターで問い合わせる際,「文房具」というと抽象的なのに対し,「白い 3 色ボールペン」というと具体的で,担当者も探しやすそうです.

ある物事を,どのくらい抽象的もしくは具体的に表現するかは,単に表現上の問題であるだけでなく,表現対象をどのように捉えているのか,また,表現を受け取る人がどのように理解すると考えているのかといった,認知プロセス上の問題でもあります.表現の抽象性/具体性を数値化すれば,こうした問題を探究する大きな手がかりとなるはずです.しかし,これまで,英語を対象に抽象度を付与したリソースは多数存在しましたが [1, 2, 3, 4],日本語を対象にした大規模なリソースは存在しませんでした.

そこで,ソーシャル・コンピューティング研究室では,15,220 語の日本語語彙について抽象度を付与した日本語抽象度辞書 (AWD-J core) を構築しました.また,これをベースに,より大規模に抽象度の推定を行ったリソース (AWD-J EX) も合わせて公開しています. 

データ

 ■最新バージョン
 ・AWD-J core (15,220語)(更新日:2019/04/04, ファイルサイズ:603KB)
 ・AWD-J EX (43,7299語)(更新日:2019/04/04, , ファイルサイズ:12.2MB)

仕様

AWD-J EXの仕様は次の通りです.Word は語,Score は抽象度(1=もっとも具体的〜5=もっとも抽象的), Deviation はScore の分散,PoS は品詞です.

Word Score Deviation PoS
東京都 1 75.37 名詞
日経新聞 1 74.68 名詞
巨大 2.2 51.28 名詞
代償 2.27 49.22 名詞
妥当 2.8 38.21 名詞
安定 3 34.08 名詞

AWD-J core の構築方法

抽象度の付与には,先行研究 [1] と同様にクラウドソーシングを用いました.応用上の観点から,日本語抽象度辞書では,日常でよく使用される語彙に対し優先的に抽象度を付与しました.使用頻度の集計には,Twitter に投稿されるつぶやきの頻度調査結果 [5] を使用し,上位20,000語の中から品詞が名詞,動詞あるいは形容詞の17,778 語を対象としました.品詞の判定には mecab-ipadic-NEologd を用いました.1回のクラウドソーシングにつき,50名の調査協力者が300語について抽象度を付与しました.300語の中には,キャリブレータワード10語とし,コントロールワード29語が含まれています.キャリブレータワードは,調査協力者に抽象度の幅を理解してもらうために用いられる語彙で,抽象度の高い語彙から低い語彙を含みます.先行研究 [1] に倣い,「シャツ」,「無限」,「ガス」,「バッタ」,「結婚」,「蹴る」,「礼儀正しい」,「口笛」,「理論」,「砂糖」の10語を用いました.
また,複数回のクラウドソーシングを行うため,各回でアノテーション基準が変化していないことを示すためコントロールワードを設定し,各回ランダムに配置しました.
抽象度は 1(最も具体的)から 5(最も抽象的)の5段階の整数値で評価しました.調査協力者への抽象度の定義については次の教示を用いました.

教示内容
このタスクでは日本語の単語についての評価を行っていただきます. 
単語には具体的な単語と抽象的な単語の2種類があります. 
具体的な単語とは,五感の1つを使って直接経験できるような,実際に存在するものや行動を言い表す単語です.したがって実物を指し示したり実際にやって見せることでその意味を説明することができます(例:「甘い」を説明するときは砂糖を食べてもらう,「飛ぶ」を説明するときはジャンプしてみせる,「ソファー」を説明するときはソファーを指差すか,ソファーの画像を見せる). 
抽象的な単語とは,直接は経験できないですが,ほかの単語によって説明できるため意味がわかるような単語です(例:「正義」の意味を示す簡単な方法はありませんが,その意味の一部分を含んでいる別の単語を用いて説明することはできます).
このタスクでは,提示された単語が具体的か抽象的かどうかを判断していただきます. 
ただし,具体的な単語と抽象的な単語は明確に分かれるものではない上,単語を理解するための言語によっても異なりますので,それぞれの単語の意味がどれくらい具体的かを5段階で評価してください. 
5点が最も具体的,1点が最も抽象的な単語です
多くの単語を対象としているため,1文字の単語なども登場します.
単語の意味があなたの経験上どれくらい具体的かを常に考えてください.
また,中には意味を知らない単語も登場する可能性がありますが,その際は「この単語を知らない」を選択してください.

上記のタスクの結果,15% 以上の調査協力者が「この単語を知らない」と選択した語彙を除外し,残りを日本語抽象度辞書に登録しました.内訳は,名詞 12,872 語,動詞 1,971 語,形容詞 377 語です.
なお,アルファベット表記の単語について,‘iPhone’, ‘Wii’ などの一部分に大文字を用いることが一般的な単語は,日本語抽象度辞書では全て小文字に統一して登録されています.しかし,クラウドソーシング時には,適宜必要な箇所を大文字表記して調査を行いました.

データ収集は,2018年4月23日から2018年7月1日の期間にYahoo!クラウドソーシングを用いて行いました.3450名の調査協力者が参加しました(1回の収集にかかる金額は 1,080 円であり,計 69回の収集により74,520 円を使用しました).

AWD-J EX の構築手法

AWD-J core に登録されている語彙は,15,220語と日常生活で用いるには十分な量の語彙に対して抽象度の付与を行いましたが,すべてを網羅しているわけではありません.そこで,先行研究 [3] の手法により,学習済み単語分散表現(http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/ )を入力とし,AWD-J 全体を学習データとして抽象度の値を出力するニューラルネットワークを構築することで,日本語抽象度辞書に収載されていない語についても抽象度を自動推定しました.AWD-J の80%を学習データとして,残りの20% について抽象度の予測を行い,実際の値との相関を調べた結果,相関係数r=0.66 と強い正の相関が得られました.AWD-J EXは,437,300語を収録しており,その内訳は,名詞414,218語,動詞19,861語,形容詞3,221語です.

謝辞

日本語抽象度辞書は,新学術領域研究「脳・生活・人生からの統合的理解にもとづく 思春期からの主体価値発展学(The science of personalized value development through adolescence: integration of brain, real-world, and life-course approaches)」 総括班 JSPS科研費 JP16H06395,D01班 JSPS科研費 JP16H06399 のサポートを得て構築されています.

参考文献

  1. Brysbaert, M., Warriner, A. B., & Kuperman, V. (2013). Concreteness ratings for 40 thousand generally known English word lemmas. Behavior Research Methods, 46(3), 904-911.
  2. Coltheart, M. (1981). The MRC psycholinguistic database. The Quarterly Journal of Experimental Psychology, 33, 497-505.
  3. K ̈oper, M., & im Walde, S. (2017). Improving Verb Metaphor Detection by Propagating Abstractness to Words, Phrases and Individual Senses. Proceedings of the 1st Workshop on Sense, Concept and Entity Representations and Their Applications, 24-30.
  4. Turney, P. D., Neuman, Y., Assaf, D., & Cohen, Y. (2011). Literal and metaphorical sense identification through concrete and abstract context. In Proceedings of the 2011 Conference on the Empirical Methods in Natural Language Processing, 2(2003), 680-690.
  5. 村山太一, 若宮翔子, 荒牧英治 (2018). WORD GINI: 使用頻度の偏りを捉える指標の提案とその応用,言語処理学会 第 24 回年次大会

プライバシーポリシー

本サイトに記入された個人情報は,サイト運営に必要となる連絡,サイトの評価,サイト上での表示,本サイトで提供するサービスの必要に限り使用し,それ以外の用途には使用しません.

免責事項

本成果物は,可能な限り細心の注意を払って開発しました.しかし,完全な信頼性や堅牢性を保証しているわけではありません.結果的に本成果物を使用して何らかの問題が発生した場合,提供元である奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室は一切の責任を負いかねます.ご使用になる場合には自己責任でご活用いただくようお願いいたします.

クリエイティブ・コモンズ・ライセンス

本成果物は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。