2018-01-02 「コーパスと自然言語処理」を読んだ 技術 コーパスと自然言語処理を読みました。 これは記憶の失われを防ぐためのメモです。 概要 どういうコーパスが使えるの、っていう視点で自然言語処理の概要を説明した本。入門書としてもよさそう。手法に関してはあっさりめ 近年だと細かい手法は気にしなくても、深に入れて「はわわ〜っ」ていう感じでできちゃうのでこういう切り口の本はよさそう といいつつこの本には深の話題はほとんど出てこないけど・・・ メモ 第1章 コーパスと自然言語処理 前置き的なやつ 第2章 コーパスアノテーション基準 アノテーション間の互換性は大切 人間の読みやすさ、機械の読みやすさ、どちらも大切 XML形式、スタンドオフ形式(本文の外に本文の位置とアノテーションを書く) 短単位・長単位 主なコーパス:BCCWJ、京大コーパス、NAISTコーパス、GDAコーパス 第3章 形態素解析・品詞タグ付与・固有表現解析 コーパスっていうより一般的な形態素解析の話 簡潔木や中華飯店のあれが出てくる 第4章 統語解析 句構造と依存構造(句構造から依存構造を作れるので前者のほうが情報量が多い) 木構造はぱっとみわからないので可視化ツール大切(ChaKi) バックトラッキングで解く(Shift-Reduce法) 動的計画法で解く(CKY法) 第5章 意味解析 意味解析といいつつ大半がWSD(語義曖昧性解消)の話 第6章 語彙概念と術語項構造 意味解析って言ったら普通こっちじゃない? EDRコーパス、FrameNet 第7章 照応解析・文章構造解析 英語圏だとエンティティの同定を情報抽出用途で使う 日本語だとゼロ照応解析を翻訳用途で使う 第8章 意見分析 TREC、NTCIR ニュース:極性は人が見てもわからない場合がある レビュー:極性はわかりやすい・ドメインごとに使われる語が違う ソーシャル:特有の表現が多い