Word Gini

Twitterを用いて算出した語の標準性に関するデータ

語の標準性を考えて標準語彙を決定することは,語学教育などに需要があることから,これまで言語処理の分野の研究で盛んに行われてきました.しかし,標準語彙は一般的な辞書のように専門家による判定がほとんどでした.時代の移り変わりの早い現代では,新しい概念やそれにまつわる新語が多く生まれ 専門家による標準語彙の判定では追いつかないこともあります.また,標準語彙同士の比較や,標準性の程度を考える際には標準語彙だけ与えられても不便なことがあります.
 そこで, SNSのユーザによる利用頻度を用いた偏りに着目することで,語単体の標準性としての値を各語に付与し,新語に対応できる計算方法で,語同士の比較ができるように標準性の数値化を行いました.ソーシャル・コンピューティング研究室ではこのデータを”WORD GINI”と名付けました. 各種データも公開していますので, ご自由に使用ください.

概要

語の標準性を考え,標準語彙を決定することは,語学教育などに需要があることから,これまで言語処理の分野の研究で盛んに行われてきました. しかし,標準語彙は一般的な辞書のように専門家による判定がほとんどでした.
しかし, 時代の移り変わりの早い現代では,新しい概念やそれにまつわる新語が多く生まれ 専門家による標準語彙の判定では追いつかないこともあります.また,標準語彙同士の比較や,標準性の程度を考える際には標準語彙だけ与えられても不便なことがあります.
そこで, SNSのユーザによる利用頻度を用いた偏りに着目することで,語単体の標準性 としての値を各語に付与し,新語に対応できる計算方法で,語同士の比較ができるように標準性の数値化を行いました.
ソーシャル・コンピューティング研究室ではこのデータを“WORD GINI”と名付けました.
各種データも本サイトで公開していますので, ご自由に使用ください.

データ

 ■最新バージョン
 ・更新日:2018/03/10, データ:WORD GINI (日本語), ファイルサイズ:6.2MB
 ・更新日:2018/03/10, データ:WORD GINI (英語), ファイルサイズ:9.5MB
 ■過去バージョン
 ・なし

仕様

WORD GINIのファイルは,単語とそれに付与されるGINI値が1行となったcsvファイルで構成されています.日本語のWORD GINIには約20万語,英語のWORD GINIには約32万語が収録されています.
以下がファイルの一例となります.

WORD GINIのファイル内容 (一例)
WORDGINI
好き0.545545153
おく0.545941564
ちゃう0.547123574
0.5500577038
すぐ0.5510212117
出し手0.5510927267

特徴

WORD GINIは,経済指標の1つであるジニ係数を語に対して応用して考案された指標で,この指標をSNSデータ(Twitter)を利用し算出したリストの作成を行いました.
この値は,どのユーザにも満遍なく利用されている語に対して低い値が付与され,一方専門用語などの一部のユーザにのみ利用されている語に対して高い値が付与されています.
ただし,日本語と英語は異なるデータ元から作成されているため,日本語と英語との比較などの用途にはご利用できません.ご注意ください
算出方法や元データに関する情報は以下の資料をご参照ください.
村山太一, 若宮翔子, 荒牧英治. WORD GINI: 語の使用の偏りを捉える指標の提案とその応用. 言語処理学会第24 回年次大会, pp. 698–701, 2018.

応用例

語の標準性に関する研究
  •  語の標準性の概念に近い値が付与されていることから,語の標準性を決める際に利用できる可能性があります.
  •  語同士の比較も可能であるため,一意的な語の標準性でなく,適材適所の標準性の作成に参考することができます.
語の平易化に関する研究
  • 語の平易化のための特徴量の1つとして利用できる可能性があります.
リーダビリティ指標に関する研究
  • SNSで満遍なく利用されている語に対し低い値が付与されているため,リーダビリティのための指標の特徴として利用できる可能性があります.

プライバシーポリシー

奈良先端科学技術大学院大学ソーシャル・コンピューティング研究室(以下,本研究室)が提供する成果物のプライバシーポリシーを定めます. 使用される方は,本規約を熟読し,内容をご理解いただいた後に,使用を開始していただくようお願いいたします.

免責事項

成果物は,可能な限り細心の注意を払って開発しました. しかし,完全な信頼性や堅牢性を保証しているわけではありません. 結果的に本データを使用して何らかの問題が発生した場合, 提供元である本研究室は一切の責任を負いかねます. ご使用になる場合には自己責任でご活用いただくようお願いいたします.