• [まろぐ]
  • [簡単で正しいHTMLの書き方]
  • [Moses奮闘記]
  • [プレゼンは引き算の美学です]
[まろぐ] [簡単で正しいHTMLの書き方] [Moses奮闘記] [プレゼンは引き算の美学です]

第4回 異動 (2010年9月頃)

前回は、某I社が機械翻訳へと大きく舵取りをしたときのお話をしました。今回は、筆者が本格的にMosesに取り組むことになったときのお話です。

一緒にMosesの担当者になってほしい

別の部署のマネージャーであるGさんに、そう切り出されたのは、2010年9月末のことでした。筆者は、某I社に入社してからの大半の時間を社内ITインフラの責任者として過ごしていて、他部門からの依頼事は日常茶飯事です。この日も、PCのセットアップか、何か新しいITインフラを用意したいという依頼かと思って、特別身構えることもなかったのですが、まさかMosesの担当者になるという話だとは思ってもいませんでした。

筆者は、直接的に翻訳案件にかかわることがほとんどなかったのですが、翻訳業界の動向のようなものは、やはり自然と耳に入ってきます。統計的機械翻訳についても、いつかは確実に取り入れることになるものの、各社ともまだ様子眺めと思っていました。ところが、どうもお客様の方が先行しているらしいという情報が入り、某I社でも本格的に力を入れることになったのでした。

ただ、このときは、いくつかある仕事がもう1つ増えるくらいにしか思っていませんでした。

11月1日付だから

10月上旬、社長が同席する何かのミーティングで、Gさんの部署への異動を告げられました。社内ITインフラの責任者という全社的なミッションはそのままに、Mosesの担当をメインにするということでした。同時に、Webサイトの担当者から外れました。異動を伴うような大きな話だったとは。気付くのが少し遅かったようです。

そして、10月中旬、統計的機械翻訳の関係者が集ってキックオフ・ミーティングが開かれ、以下のことを確認しました。

  • 見込み客も含めた某I社のお客様の統計的機械翻訳への対応状況
  • 目的は統計的機械翻訳を活用することによる翻訳コストの削減
  • 目標は12月末までにMosesによる社内向けサービスを提供できるように環境を構築すること

この日を境に、筆者の仕事のリズムががらりと変わりました。社内ITインフラで改善したいことがいくつかありましたが、全て後回し。とにかく、寝ても覚めても統計的機械翻訳という生活の始まりです。Mosesという得体の知れないものを、ほとんど経験のないLinuxで動くようにし、かつ、使いこなせるようにならないといけないわけです。何から始めようって感じです。

とにかく、スケジュールを作らないことには、どうにもなりません。以下のように2週間単位で大まかな目標を立て、これを基に細かな作業項目を全て洗い出し、WBSを作りました。

  • 10月末までに、Mosesが動く環境をセットアップする。
  • 11月中旬までに、1万センテンス程度のパラレルコーパスを使って、一通りの手順を確認する。
  • 11月末までに、10万センテンス程度のパラレルコーパスを使って、仕組みの理解とパフォーマンス測定を行ない、次の開発に向けた課題や要件を洗い出す。

ここからは、毎日が奮闘の連続です。壁にぶち当たったり、仮説の検証に失敗したりしながらも、時に周りの人に助けられながら、少しずつ前進しています。ようやく本題に入りますが、次回からは日々の奮闘振りを振り返ってみたいと思います。

次回はLinuxの壁です。


[注] この回顧録は、かつて勤めていた会社で書いた連載を復元したもので、某I社の現在の状況を反映している訳ではありません。

投稿情報: 18:52 | 個別ページ

|

検索

フォトアルバム

コンテンツ

  • [まろぐ]
  • [簡単で正しいHTMLの書き方]
  • [Moses奮闘記]
  • [プレゼンは引き算の美学です]

出会い編

  • 第1回 Moses? (2010年3月)
  • 第2回 夜明け前の出来事 (2010年4月頃)
  • 第3回 機械翻訳で行くぞ (2010年8月頃)
  • 第4回 異動 (2010年9月頃)

手探り編

  • 第5回 Linuxの壁 (2010年10月)
  • 第6回 最初の疑問 (2010年11月)
  • 第7回 日本語との格闘 (2010年11月)
  • 第8回 BLEUスコア導入 (2010年11月)
  • 第9回 おかしなセンテンスを取り除くと (2010年11月)
  • 第10回 ユーザー辞書を使うと (2010年11月)
  • 第11回 押してダメなら引いてみろ (2010年11月)
  • 第12回 英ママは善か悪か (2010年11月)
  • 第13回 言語モデルは偉大なり (2010年11月)
  • 第14回 ある程度の数は必要 (2010年11月)
  • 第15回 チューニングは必須 (2010年12月)
  • 第16回 最初のブレイクスルー (2010年12月)

独自の工夫編

  • 第17回 ついに100万センテンスへ (2010年12月)
  • 第18回 メモリ不足を解消せよ (2010年12月)
  • 第19回 処理速度を改善せよ (2010年12月)
  • 第20回 品詞情報を活かせるか (2010年12月)
  • 第21回 カンニングは効果あり (2010年12月)
  • 第22回 前進と挫折で始まった2011年 (2011年1月)
  • 第23回 某I社独自のシステム化 (2011年2月頃)
  • 第24回 再び品質改善へ (2011年3月)
  • 第25回 長文対策の発見 (2011年3月)
  • 第26回 都合のいいコーパス (2011年3月)
  • 第27回 パラレル・コーパスの加工 (2011年4月)
  • 第28回 評価結果に潜むヒント (2011年5月)
  • 第29回 現在も続く改良 (2011年6月以降)

著作権

  • © 1995-2023, "Toda, Masalu", All Rights Reserved.
Powered by Typepad
  • Moses奮闘記 •
  • Powered by Typepad
上