朝日新聞単語ベクトル

「朝日新聞単語ベクトル」は、朝日新聞社が保有する1984年8月から2017年8月までに掲載された記事のうち、約800万記事(延べ23億単語)をもちいて学習した単語ベクトルです。 単語分割には MeCabを使用し、辞書はIPADIC-2.7.0を用いています。 単語ベクトルのモデルは、Skip-gramとCBOWを word2vecの ツールで学習したほか、GloVeによって学習したモデルを提供します。 さらに、Skip-gram、CBOW、GloVeに対して「Retrofitting」と呼ばれる、単語ベクトルのfine-tuning手法を用いて最適化したものも用意しました[1]。合計6モデルを提供します。

本データは、株式会社レトリバとの共同研究の一環として作成されたものです。共同研究についてはこちらをご覧ください。 また、本件に関するプレスリリースはこちらをご覧ください。

word2vecおよびGloVeの訓練パラメータは下記の通りです。

Skip-gram or CBOW -cbow {0, 1}
次元数 -size 300
文脈長 -window 8
負例サンプリング -negative 5
階層化ソフトマックス -hs 0
最低頻度閾値 -sample 1e-5
単語最低出現回数 -min-count 3
反復回数 -iter 15

word2vecの訓練オプション

次元数 VECTOR_SIZE 300
文脈長 WINDOW_SIZE 8
単語最低出現回数 VOCAB MIN COUNT 3
反復回数 MAX_ITER 15

GloVeの訓練オプション

単語ベクトルの使用方法

単語ベクトルは、全てword2vecのフォーマットで統一されています。 ファイルの1行目に語彙数とベクトルの次元数が記載され、2行目以降は単語とベクトルが記載されています。 下記では、Pythonでgensimを用いたサンプルコードは下記の通りです。


      >>> from gensim.models import KeyedVectors
      >>> # ある単語に似た単語(上位5個)を探す
      >>> vec = KeyedVectors.load_word2vec_format("./cbow.txt")
      >>> vec.most_similar("暗い", topn=5)
      [('暗く', 0.7123910188674927),
       ('明るい', 0.6702773571014404),
       ('暗かっ', 0.5876639485359192),
       ('薄暗い', 0.58516526222229),
       ('真っ暗', 0.5563079118728638)]
     >>> # Retrofittingを適用したベクトルで似た単語を探す
     >>> retro_vec = KeyedVectors.load_word2vec_format("./cbow-retrofitting.txt")
     >>> retro_vec.most_similar("暗い", topn=5)
     [('薄ぐらい', 0.8090516328811646),
      ('グルーミー', 0.7773782014846802),
      ('もの淋しい', 0.7517762780189514),
      ('陰気臭い', 0.7295931577682495),
      ('暗く', 0.7175554037094116
     >>> # 「王」という単語から「男」を引いて「女」を足すと
     >>> retro_vec.most_similar(positive=['女', '王'], negative=['男'], topn=5)
    [('女帝', 0.6063517332077026),
     ('女王', 0.6007771492004395),
     ('君王', 0.5941751003265381),
     ('クィーン', 0.583606481552124),
     ('后', 0.5781991481781006)]
    

データの入手に関して

データの入手は、下記の利用規約を読み同意された方のみ入手が可能です。 利用規約に同意される方は、お名前・所属・利用目的を明記の上、 research-prアットマークretrieva.jp までお問い合わせください。 メールの本文には、「利用規約に同意します」という一文を記載ください。3営業日以内に頂いた内容を確認させていただき、利用目的が利用規約に準じている方にはメールの返信にてデータのURLをお送りします。

こちらのQRコードからメールを送信いただくと便利です。

利用規約

第1条(定義)

本規約において、以下の用語を次のように定める。
「本規約」とは、本利用規約をいう。
「甲」とは、 株式会社レトリバ(以下「甲1」という)及び株式会社朝日新聞社(以下「甲2」という)を総称していう。
「乙」とは、本規約に同意し、甲の承認を得て、甲が配布する単語ベクトルデータを利用する個人をいう。
「「本データ」とは、甲が朝日新聞に使用された日本語の単語約74万語について作成した単語ベクトルのデータ全部をいう。

第2条(利用許諾)

甲は、乙が本規約に従って本データを利用することを非独占的に許諾する。なお、甲及び乙は、本規約に明示的に定める以外に、乙に本データに関していかなる権利も付与するものではないことを確認する。

第3条(知的財産権)

本データに関する知的財産権及びその他の権利は、すべて甲に帰属する。ただし、本データ作成の素材となった朝日新聞記事の著作権は甲2及び正当な権利を有する第三者に帰属する。

第4条(許諾の条件)

甲が乙に本データの利用を許諾する条件は、以下の通りとする。 
(1)利用目的: 日本語に関する学術研究(以下「本研究」という)を遂行するため。
(2)利用の範囲: 乙及び乙が所属する研究グループ
(3)利用方法: 本研究のために本データを乙が管理するコンピューター端末またはサーバーに複製し、本データを分析・研究しデータベース等に保存した解析データ(以下「本解析データ」という)を得る。

第5条(利用申込)

1.乙は、乙の名前、乙の所属、乙の研究グループ名、乙のメールアドレス、本データを利用する本研究の具体的な内容を、甲のメールアドレス(research-prアットマークretrieva.jp)に送信し、本データの利用について甲の承認を得るものとする。 なお、甲が承認しなかった場合、甲はその理由を開示する義務を負わない。
2.前項に基づき甲に申告した内容に変更が生じる場合、乙は遅滞なくこれを甲に報告し、改めて甲の承認を得るものとする。
3.乙がメールを送信した時点で、乙は本規約に同意したものとみなされる。

第6条(禁止事項)

乙は、本データの利用にあたり、以下に定める行為をしてはならない。
(1)本データ及びその複製物(それらを復元できるデータを含む)を譲渡、貸与、販売すること。また、書面による甲の事前許諾なくこれらを配布、公衆送信、刊行物に転載するなど前項に定める範囲を超えて利用し、甲または第三者の権利を侵害すること。  
(2)本データを用いて甲又は第三者の名誉を毀損し、あるいはプライバシーを侵害するなどの権利侵害を行うこと。
(3)乙及び乙が所属する研究グループ以外の第三者に本データを利用させること。
(4)本規約で明示的に許諾された目的及び手段以外にデータを利用 すること。

第7条(公表)

1.乙は、学術研究の目的に限り、本データを使用して得られた研究成果や知見を公表することができる。これらの公表には、本解析データや処理プログラムの公表を含む。
2.乙は、公表にあたっては、本データをもとにした成果であることを明記し、成果の公表の前にその概要を書面やメール等で甲に報告する。
3.乙は、論文発表の際も、本データを利用した旨を明記し、提出先の学会、発表年月日とともに論文の別刷りまたはコピーを1部甲に提出するものとする。

第8条(乙の責任)

1.乙は、本データをダウンロードする為に必要な通信機器やソフトウェア、通信回線等の全てを乙の責任と費用で準備し、操作、接続等をする。
2.乙は、本データを本研究の遂行のみに使用する。
3.乙は、本データが漏洩しないよう善良な管理者の注意義務をもって管理し、乙のコンピューター端末等に適切な対策を施すものとする。
4.乙が、本研究を乙が所属するグループのメンバーと共同で遂行する場合、乙は、本規約の内容を当該グループの他のメンバーに遵守させるものとし、万一、当該他のメンバーが本規約に違反し甲又は第三者に損害を与えた場合は、乙はこれを自らの行為として連帯して責任を負うものとする。
5.甲が必要と判断する場合、乙に対して、本データの利用状況の開示を求めることができるものとし、乙はこれに応じなければならない。

第9条(対価) 

本規約に基づく本データの利用許諾の対価は発生しない。但し、本データ及び本解析データの商業的な利用の場合は、甲との間で別途契約を要するものとする。

第10条(免責) 

本データは、甲が信用するに足るとみなした資料および各種アルゴリズムから作成されたものだが、甲はその内容の完全性、正確性、有用性に関してはいかなる保証もするものではなく、本データを利用することによって生じる一切の損害について、甲は賠償の責を負わない。

第11条(利用期間)

乙による本データの利用可能期間は、第5条にもとづく甲の承認日より1年間とする。

第12条(違反時の措置) 

1.甲は、乙が次の各号の一つにでも該当した場合、甲は乙に対して本データの利用を差止めることができる。
(1)本規約に違反した場合
(2)法令に違反した場合
(3)虚偽の申告等の不正を行った場合
(4)信頼関係を破壊するような行為を行った場合
(5)その他甲が不適当と認めた場合
2.前項の規定は甲から乙に対する損害賠償請求を妨げるものではない。
3.第1項に基づき、甲が乙に対して本データの利用の差し止めを求めた場合、乙は、乙が管理する設備から、本データ、本解析データ及びその複製物の一切を消去するものとする。

第13条(利用期間終了時の措置)

1.事由の如何を問わず、第11条に定める利用期間が終了したときは、乙は本データおよびその複製物の一切を消去または破棄する。  
2.前項の破棄、消去の対象に本解析データは含まない。ただし、乙は、本解析データから本データを復元して再利用することはできないものとする。

第14条(権利義務譲渡禁止) 

乙は、甲の事前の書面による承諾を得ることなく、本規約上の地位、権利または義務の一切を、第三者に譲渡、承継、貸与、または質入れなどにより処分することはできない。

第15条 (個人情報等の保護および法令遵守)

1.甲が取得した乙の個人情報は、別途定める甲2のプライバシーポリシーに従って取り扱われる。
2.甲は、サーバー設備の故障その他のトラブル等に対処するため、乙の個人情報を他のサーバーに複写することがある。

第16条(残存効)

本規約第3条、第7条、第12条第2項、第13条乃至第19条は、利用期間終了後も有効に存続する。

第17条(損害賠償)

乙は、本規約に関し、自らの責に帰すべき事由により甲または第三者に何らかの損害を与えた場合には、その損害を賠償する責を負う。

第18条(準拠法)

本規約に関する準拠法は、日本法とする。

第19条(管轄裁判所)

本規約に関する一切の訴訟については、東京地方裁判所又は東京簡易裁判所を第一審の専属的合意管轄裁判所とする。

第20条(協議)

本規約に定めのない事項または本規約に疑義が生じた場合は、甲乙は誠意をもって協議し、円満な解決に努めるものとする。

第21条(本規約の効力)

1.本規約は、本データの利用の関する一切について適用される。なお、本規約は随時変更されることがあるが、変更後の規約は特別に定める場合を除き、ウェブ上で表示された時点から効力を生じるものとする。
2.甲は、乙に対して、本データの利用期間内であっても利用の中止を求めることができるものとする。

附則

本規約:2017年10月25日実施

脚注

[1]. 参考文献1に記載されているRetrofitting(自動)がこれに該当します。

参考文献

​1. 田口雄哉, 田森秀明, 人見雄太, 西鳥羽二郎, 菊田洸. 同義語を考慮した日本語単語分散表現の学習. 情報処理学会第233回自然言語処理研究会, Vol.2017-NL-233, No.17, pp.1-5. October 2017[pdf]

2. Tomas Mikolov and Kai Chen and Greg Corrado and Jeffrey Dean. "Efficient Estimation of Word Representations in Vector Space." arXiv, 2013. [pdf]

3. Jeffrey Pennington, Richard Socher and Christopher D. Manning. "GloVe: Global vectors for word representation." EMNLP2014. [pdf]

4. Manaal Faruqui, Jesse Dodge, Sujay Jauhar, Chris Dyer, Eduard Hovy, and Noah Smith . "Retrofitting Word Vectors to Semantic Lexicons" NAACL2015. [pdf]