NLP(自然言語処理)用語まとめ

一般用語

NLP

自然言語処理のこと。Natural language processing : NLP。

コンピュータが人間の言葉を処理する事。自然言語の反対は形式言語。

テキストマイニング

自然言語処理とデータマイニングの技術を合わせてテキストから知識発見を行う技術。

知らない知識をテキストから発見するのをテキストマイニング。

既知の情報の位置を特定するのを情報検索。

素性

属性/属性値

自立語

他の単語が無くても意味をなす単語。助詞/助動詞以外。

bag of words

与えられたテキストの集合で並び順が無視されること。

N-Gram

連続するn個の要素。要素が何を表すかによって表現が異なる。

"文字N-gram"

"単語N-gram"

2-gram(bigram)、3-gram(trigram)をよく使う。

形態素解析では文字n-gramを利用する。

TF・IDF

索引後の重み付け方法。

TF(Term Frequency)は文書に置ける単語の頻度

IDF(Inverted Document Frequency)は索引語が現れる相対文書頻度の逆数の対数

1文書に同一の索引語が多く出現すればTF・IDFの値は大きくなる。多くの文書に索引後が出現すれば値は小さくなる。

コサイン類似度

二つのデータが似ているかどうかをデータベクトルの距離により算出すること。

コーパス

自然言語の大量のテキスト集合。

シソーラス

単語の関係(上位/下位、部分/全体、同義、類義)によって分類し体系づけた辞書。

機会学習

人間が自然と行っているパターン認識や経験則に基づく判断をコンピュータを用いて行う技術や理論。

ナイーブベイズ(単純分類器)

ベイズの定理を適用することに基づいた単純な確率分類器。

テキスト分類に頻繁に用いられている。

パラメータ推定には最尤法が使われる。

決定木

葉と根を利用した予測モデル。

データマイニングでよく利用され、葉が分類、枝がその分類に至るまでの特徴の集合。

K-平均

距離ベースのクラスタアルゴリズムで事前に決められた数のクラスタにデータを割り振る。

SVM

Support Vector Machine。２値分類器。

座標上にサンプル値をプロットし、正値/負例の集合からもっとも距離が大きくなる識別面

を決定。

データを入れるとそこそこの精度の結果が出る。しかしサンプルが多いと最適化が大変。

パーセプトロン

ニューラルネットの最も基本的な形式。式により２クラスにクラス分類を行う。

線形分離可能なモデルにのみ適用可能。非線形問題でもカーネルトリックを利用すると線形分離に適用できる。

教師あり学習

特定のデータとそれに関連する付随情報があり、付随情報が無いデータが与えられた時に付随情報を予測する関数や規則を取得する学習。

教師無し学習

特定のデータとそれに関連する付随情報が与えられず、データの分布などから特徴的なパターンを見つける学習。

形態素解析

文法ルールに従い自然言語を形態素(言語で意味を持つ最小単位)に分割する。

MA

形態素解析のこと。Morphological Analysis。

分かち書き

文章の語に区切りとして空白を挟んで記述。

形態素解析ツール

代表的な物を以下に挙げる。

ツール名 URL

mecab http://mecab.sourceforge.net/

kakashi http://kakasi.namazu.org/index.html.ja

chasen http://chasen-legacy.sourceforge.jp/

Yahoo!JAPAN WebAPI http://developer.yahoo.co.jp/webapi/jlp/

かな漢字変換

日本語入力システムの一つ。読みを入力した内容に対して漢字を出力すること。

MS IME(Microsoft)、ATOK(ジャストシステム)、Google日本語入力などが有名。

ツール名	URL
mecab	http://mecab.sourceforge.net/
kakashi	http://kakasi.namazu.org/index.html.ja
chasen	http://chasen-legacy.sourceforge.jp/
Yahoo!JAPAN WebAPI	http://developer.yahoo.co.jp/webapi/jlp/

リンク

用語集- 長岡技科大自然言語処理研究室

Python による日本語自然言語処理

自然言語処理関係

朱鷺の杜Wiki

機会学習　はじめよう

入門自然言語処理

作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明
出版社/メーカー: オライリージャパン
発売日: 2010/11/11
メディア: 大型本
購入: 20人クリック: 639回
この商品を含むブログ (44件) を見る

Y's note

Web技術・プロダクトマネジメント・そして経営について

NLP(自然言語処理)用語まとめ

一般用語

NLP

テキストマイニング

素性

自立語

bag of words

N-Gram

TF・IDF

コサイン類似度

コーパス

シソーラス

機会学習

ナイーブベイズ(単純分類器)

決定木

K-平均

SVM

パーセプトロン

教師あり学習

教師無し学習

形態素解析

MA

分かち書き

形態素解析 ツール

かな漢字変換

リンク