概要

どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ
近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそう
といいつつこの本には深の話題はほとんど出てこないけど・・・

メモ

第1章コーパスと自然言語処理
- 前置き的なやつ
第2章コーパスアノテーション基準
- アノテーション間の互換性は大切
- 人間の読みやすさ、機械の読みやすさ、どちらも大切
- XML形式、スタンドオフ形式（本文の外に本文の位置とアノテーションを書く）
- 短単位・長単位
- 主なコーパス：BCCWJ、京大コーパス、NAIST コーパス、GDAコーパス
第3章形態素解析・品詞タグ付与・固有表現解析
- コーパスっていうより一般的な形態素解析の話
- 簡潔木や中華飯店のあれが出てくる
第4章統語解析
- 句構造と依存構造（句構造から依存構造を作れるので前者のほうが情報量が多い）
- 木構造はぱっとみわからないので可視化ツール大切（ChaKi）
- バックトラッキングで解く（Shift-Reduce法）
- 動的計画法で解く（CKY法）
第5章意味解析
- 意味解析といいつつ大半がWSD（語義曖昧性解消）の話
第6章語彙概念と術語項構造
- 意味解析って言ったら普通こっちじゃない？
- EDR コーパス、FrameNet
第7章照応解析・文章構造解析
- 英語圏だとエンティティの同定を情報抽出用途で使う
- 日本語だとゼロ照応解析を翻訳用途で使う
第8章意見分析
- TREC、NTCIR
- ニュース：極性は人が見てもわからない場合がある
- レビュー：極性はわかりやすい・ドメインごとに使われる語が違う
- ソーシャル：特有の表現が多い

EchizenBlog-Drei

「コーパスと自然言語処理」を読んだ

概要

メモ