NLP(自然言語処理)用語まとめ
一般用語
素性
- 属性/属性値
自立語
- 他の単語が無くても意味をなす単語。助詞/助動詞以外。
bag of words
- 与えられたテキストの集合で並び順が無視されること。
TF・IDF
- 索引後の重み付け方法。
- TF(Term Frequency)は文書に置ける単語の頻度
- IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数
- 1文書に同一の索引語が多く出現すればTF・IDFの値は大きくなる。多くの文書に索引後が出現すれば値は小さくなる。
コサイン類似度
- 二つのデータが似ているかどうかをデータベクトルの距離により算出すること。
シソーラス
- 単語の関係(上位/下位、部分/全体、同義、類義)によって分類し体系づけた辞書。
機会学習
- 人間が自然と行っているパターン認識や経験則に基づく判断をコンピュータを用いて行う技術や理論。
決定木
- 葉と根を利用した予測モデル。
- データマイニングでよく利用され、葉が分類、枝がその分類に至るまでの特徴の集合。
SVM
- Support Vector Machine。2値分類器。
- 座標上にサンプル値をプロットし、正値/負例の集合からもっとも距離が大きくなる識別面
を決定。
- データを入れるとそこそこの精度の結果が出る。しかしサンプルが多いと最適化が大変。
教師あり学習
- 特定のデータとそれに関連する付随情報があり、付随情報が無いデータが与えられた時に付随情報を予測する関数や規則を取得する学習。
教師無し学習
- 特定のデータとそれに関連する付随情報が与えられず、データの分布などから特徴的なパターンを見つける学習。
形態素解析
MA
- 形態素解析のこと。Morphological Analysis。
分かち書き
- 文章の語に区切りとして空白を挟んで記述。
形態素解析ツール
- 代表的な物を以下に挙げる。
ツール名 URL mecab http://mecab.sourceforge.net/ kakashi http://kakasi.namazu.org/index.html.ja chasen http://chasen-legacy.sourceforge.jp/ Yahoo!JAPAN WebAPI http://developer.yahoo.co.jp/webapi/jlp/
リンク
- 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
- 出版社/メーカー: オライリージャパン
- 発売日: 2010/11/11
- メディア: 大型本
- 購入: 20人 クリック: 639回
- この商品を含むブログ (44件) を見る