Y's note

Web技術・プロダクトマネジメント・そして経営について

本ブログの更新を停止しており、今後は下記Noteに記載していきます。
https://note.com/yutakikuchi/

NLP(自然言語処理)用語まとめ

一般用語

NLP
テキストマイニング
素性
  • 属性/属性値
自立語
  • 他の単語が無くても意味をなす単語。助詞/助動詞以外。
bag of words
  • 与えられたテキストの集合で並び順が無視されること。
N-Gram
  • 連続するn個の要素。要素が何を表すかによって表現が異なる。
  • 2-gram(bigram)、3-gram(trigram)をよく使う。
  • 形態素解析では文字n-gramを利用する。
TF・IDF
  • 索引後の重み付け方法。
  • TF(Term Frequency)は文書に置ける単語の頻度
  • IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数
  • 1文書に同一の索引語が多く出現すればTF・IDFの値は大きくなる。多くの文書に索引後が出現すれば値は小さくなる。
コサイン類似度
  • 二つのデータが似ているかどうかをデータベクトルの距離により算出すること。
コーパス
シソーラス
  • 単語の関係(上位/下位、部分/全体、同義、類義)によって分類し体系づけた辞書。

機会学習

  • 人間が自然と行っているパターン認識や経験則に基づく判断をコンピュータを用いて行う技術や理論。
ナイーブベイズ(単純分類器)
  • ベイズの定理を適用することに基づいた単純な確率分類器。
  • テキスト分類に頻繁に用いられている。
  • パラメータ推定には最尤法が使われる。
決定木
  • 葉と根を利用した予測モデル。
  • データマイニングでよく利用され、葉が分類、枝がその分類に至るまでの特徴の集合。
K-平均
SVM
  • Support Vector Machine。2値分類器。
  • 座標上にサンプル値をプロットし、正値/負例の集合からもっとも距離が大きくなる識別面

を決定。

  • データを入れるとそこそこの精度の結果が出る。しかしサンプルが多いと最適化が大変。
パーセプトロン
教師あり学習
  • 特定のデータとそれに関連する付随情報があり、付随情報が無いデータが与えられた時に付随情報を予測する関数や規則を取得する学習。
教師無し学習
  • 特定のデータとそれに関連する付随情報が与えられず、データの分布などから特徴的なパターンを見つける学習。

形態素解析

  • 文法ルールに従い自然言語形態素(言語で意味を持つ最小単位)に分割する。
MA
分かち書き
  • 文章の語に区切りとして空白を挟んで記述。
かな漢字変換

リンク

入門 自然言語処理

入門 自然言語処理