Entry

今日やっつけた本 - 『言語処理のための機械学習入門』

2010年07月23日

(自然)言語処理というのは,ある文書がどのカテゴリに属するか当てて分類したり,ある文書と他の文書がどれだけ似ているか定量化したりする処理のことです。ま,「検索エンジンがやってるようなこと」と言えば,おおむね外れていないはず。

あたしゃ,言語処理を扱ったシステムやプログラムを本格的に書いたことはなくて,ま,要するに門外漢なんですけれど,機械学習のプログラムは書いているので読むことにしました。自然言語処理に関わらず,これから機会学習に手を出そうとしている向きには,いい教材になると思います。

言語処理のための機械学習入門 (自然言語処理シリーズ)
高村 大也
コロナ社
売り上げランキング: 4507

本書の特徴は,理論的な側面よりも実験や実際の計算を重視しているところ。機械学習の本は,基本的に数式や証明から具体的なプログラムやアルゴリズムを起こせる人を対象にしているフシがあるもんで,初めて触れる人にはなかなか敷居が高かったりします。理論が難解なのはもとより,それを理解したとしても具体的にプログラムやシステムとして実現するのも難しいんですね。特に,独学では難しい。この点,本書では,演習問題で具体的な数字や事例を使ってラグランジュ乗数法の計算や確率の計算を取り入れています。理論から実際の計算への橋渡しを示しているという点で,これはとても助かります。

特に,個人的な印象では,ラグランジュ乗数法についてかなり丁寧に説明している印象がありました(最初の方だから印象が強かったというのもあるんだろうけど)。制約付きの最適化問題は,機械学習のいたるところに出てくる必須の知識で,実際,本書の本文で筆者は「ラグランジュ乗数法をきっちり理解すれば,理解できる論文の数は激増するといってよいだろう。」と強調していたりもする。SVM なんかは,ラグランジュ乗数法そのまんまだったりする。

全体的な構成は,先の制約付き最適化問題をはじめとした数学的な基礎を確認した後,文書の数学的表現,クラスタリング,分類,系列ラベリングと話が進みます。それぞれ,深く扱えば一冊の本ができる内容だけれども,本書では細かい寄り道をせず一気に結論までたどり着くような書き方になっています。最後に「実験の仕方など」と題して,論文を書く際の注意点を取り上げられているけれども,これを見ると,本書はもっぱら実務者向けというよりは,大学生の教科書といった位置づけなんだと思います。

また,先日刊行されたばかりということもあって,情報が新しいことも助かります。文献参照や参考文献,一般的なデータセットの所在やフリーソフトの紹介があることも,機械学習を学習する際の大きな手助けになるはず。

機械学習の技術そのものは,ニューラルネットワークの誕生(Rumelhart)から数えて25年以上も経っているわけですけれど,入門書的な位置づけにある本が決定的に少ない気がします。特に邦書では少ない。本書のような本が増えるといいんですけどね。書き手がなかなかいないだろうな,とも。

Trackback
Trackback URL:
Ads
About
Search This Site
Ads
Categories
Recent Entries
Log Archive
Syndicate This Site
Info.
クリエイティブ・コモンズ・ライセンス
Movable Type 3.36
Valid XHTML 1.1!
Valid CSS!
ブログタイムズ

© 2003-2012 AIAN