かつて勤めていた会社で、2010年3月に統計的機械翻訳というものと出会いました。実は、Google翻訳が統計的機械翻訳そのものなので、日常的に利用している方はそれなりに多いはずです。
しかし、統計的機械翻訳を提供する人にとっての情報は、まだまだ少ないのが現状です。当時の悪戦苦闘した様子を綴った回顧録が、少しでも世の中のお役に立てば幸いです。
出会い編
手探り編
- 第5回 Linuxの壁 (2010年10月)
- 第6回 最初の疑問 (2010年11月)
- 第7回 日本語との格闘 (2010年11月)
- 第8回 BLEUスコア導入 (2010年11月)
- 第9回 おかしなセンテンスを取り除くと (2010年11月)
- 第10回 ユーザー辞書を使うと (2010年11月)
- 第11回 押してダメなら引いてみろ (2010年11月)
- 第12回 英ママは善か悪か (2010年11月)
- 第13回 言語モデルは偉大なり (2010年11月)
- 第14回 ある程度の数は必要 (2010年11月)
- 第15回 チューニングは必須 (2010年12月)
- 第16回 最初のブレイクスルー (2010年12月)
独自の工夫編
- 第17回 ついに100万センテンスへ (2010年12月)
- 第18回 メモリ不足を解消せよ (2010年12月)
- 第19回 処理速度を改善せよ (2010年12月)
- 第20回 品詞情報を活かせるか (2010年12月)
- 第21回 カンニングは効果あり (2010年12月)
- 第22回 前進と挫折で始まった2011年 (2011年1月)
- 第23回 某I社独自のシステム化 (2011年2月頃)
- 第24回 再び品質改善へ (2011年3月)
- 第25回 長文対策の発見 (2011年3月)
- 第26回 都合のいいコーパス (2011年3月)
- 第27回 パラレル・コーパスの加工 (2011年4月)
- 第28回 評価結果に潜むヒント (2011年5月)
- 第29回 現在も続く改良 (2011年6月以降)
[注] この回顧録は、かつて勤めていた会社で書いた連載を復元したもので、某I社の現在の状況を反映している訳ではありません。