The Manifesto マニフェスト
Tuesday, April 8th, 20082008年3月13日
僕が初めてアマゾン・メカニカルタークを利用したのは検索エンジンのスタートアップPowersetにいたとき。自分たちの初期内部アルゴリズムの質をYahooやグーグルの結果と比較するために利用しました。当初、検索結果の質を比較するフルタイムの社員を雇わなければいけないと思っていました。
実験的に、品質管理なしで、メカニカルタークにタスクを設けて、50ドルほどいれて一晩実行させてみました。返ってきたデータは、使えないデータも含まれたいたものの総合的には検索エンジン間での有意義な相違がみられました。社内で、人を雇うために承認を得る必要も、仮デザインを委員会に通して結果がでるのに1ヶ月待つこともなく、すべて一人で実行可能でした。自分一人で経験に基づいた実験をデザインし、そのデータ収集そのものについて大規模な実験を実行できたのです。
以前、マシンラーニング(機械学習)についてどんな論文を書こうかスタンフォードで考えていたとき、会話はいつもどんなデータセットが利用可能かということに左右されていました。現存する使用可能データを把握し、そこから何をしたいかを見極めていたのです。ある目的のためにデザインされたデータを転用するための議論に膨大な時間を費やしていました。データを使用する多くの分野で同じことが起きていると思います。
ドローレスラボでは、独自に構築したツールを使用し、メカニカルタークやその他の場所で、そういった大量のデータを効率的に速やかに収集処理しています。このブログを通して、その僕たちが開発した技術で遊ぶ機会を提供できたらよいと思います。
AMT(アマゾン・メカニカルターク)の仕事を初めて作ったとき、他にも実行したいたくさんのクレイジーな実験を思いつきました。
一晩で、一番安い航空会社を見つけることができるか?人が赤とオレンジを区別する正確な閾値をみつけられるか?FOXニュースとNPR(米国国営ラジオ局)の感情の違いを数字化することがでるか?等々・・・
学生時代、芸術の先生が全員一日20枚の絵を描かせていました。とにかく多くをこなすことによって、速いペースで物事を進め、どんどん新しいことに挑戦させたのです。僕たちの実験は、そんな感じで、(多分他の科学的アプローチとは違いますが)できるだけ速く安価にデータを収集し分析できるので、面白いデータを敏速にみつけられます。
現在、ブレーンストーミングをして、今後実行する実験プランを練っています。皆さんからも、もし収集してみたいデータのアイデアがあればご連絡ください。
クールなアイデアがあれば、僕たちがデータ収集をする代わりに、このBLOGを通して、ゲストの皆さんに簡単な分析を返してもらうという共同作業ができると思います。
それでは、近日中に、様々な実験結果を公開予定ですのでお楽しみに!
- Lukas
