Twitterを用いて算出した語の標準性に関するデータ
語の標準性を考えて標準語彙を決定することは,語学教育などに需要があることから,これまで言語処理の分野の研究で盛んに行われてきました.しかし,標準語彙は一般的な辞書のように専門家による判定がほとんどでした.時代の移り変わりの早い現代では,新しい概念やそれにまつわる新語が多く生まれ 専門家による標準語彙の判定では追いつかないこともあります.また,標準語彙同士の比較や,標準性の程度を考える際には標準語彙だけ与えられても不便なことがあります.
そこで,SNSのユーザによる利用頻度を用いた偏りに着目することで,語単体の標準性としての値を各語に付与し,新語に対応できる計算方法で,語同士の比較ができるように標準性の数値化を行いました.ソーシャル・コンピューティング研究室では,このデータを“WORD GINI” と名付けました.各種データも公開していますので,ご自由に使用ください.
データ
■ 最新バージョン
・語使用者リスト(日本語)
・WORD GINI(日本語)
・WORD GINI(英語)
仕様
WORD GINIのファイルは,単語とそれに付与されるGINI値が1行となったcsvファイルで構成されています.日本語のWORD GINIには約20万語,英語のWORD GINIには約32万語が収録されています.以下がファイルの一例となります.
WORD GINIのファイル内容 (一例) | |
---|---|
WORD | GINI |
好き | 0.545545153 |
おく | 0.545941564 |
ちゃう | 0.547123574 |
先 | 0.5500577038 |
すぐ | 0.5510212117 |
出し手 | 0.5510927267 |
特徴
WORD GINIは,経済指標の1つであるジニ係数を語に対して応用して考案された指標で,この指標をSNSデータ(Twitter)を利用し算出したリストの作成を行いました.
この値は,どのユーザにも満遍なく利用されている語に対して低い値が付与され,一方専門用語などの一部のユーザにのみ利用されている語に対して高い値が付与されています.
ただし,日本語と英語は異なるデータ元から作成されているため,日本語と英語との比較などの用途にはご利用できません.ご注意ください.算出方法や元データに関する情報は以下の資料をご参照ください.
村山太一, 若宮翔子, 荒牧英治. WORD GINI: 語の使用の偏りを捉える指標の提案とその応用. 言語処理学会第24 回年次大会, pp. 698–701, 2018. [PDF]
応用例
語の標準性に関する研究
- 語の標準性の概念に近い値が付与されていることから,語の標準性を決める際に利用できる可能性があります.
- 語同士の比較も可能であるため,一意的な語の標準性でなく,適材適所の標準性の作成の参考にすることができます.
語の平易化に関する研究
- 語の平易化のための特徴量の1つとして利用できる可能性があります.
リーダビリティ指標に関する研究
- SNSで満遍なく利用されている語に対し低い値が付与されているため,リーダビリティのための指標の特徴として利用できる可能性があります.
プライバシーポリシー
本サイトに記入された個人情報は,サイト運営に必要となる連絡,サイトの評価,サイト上での表示,本サイトで提供するサービスの必要に限り使用し,それ以外の用途には使用しません.
免責事項
本成果物は,可能な限り細心の注意を払って開発しました.しかし,完全な信頼性や堅牢性を保証しているわけではありません.結果的に本成果物を使用して何らかの問題が発生した場合,提供元である奈良先端科学技術大学院大学 ソーシャル・コンピューティング研究室は一切の責任を負いかねます.ご使用になる場合には自己責任でご活用いただくようお願いいたします.
本成果物は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。