Archive for the ‘Uncategorized’ Category

クラウドソーシング・アートワーク

Thursday, April 17th, 2008

(注)これはドローレス・ラボで行ったプロジェクトではありませんが、非常に面白いのでブログで取り上げたいと思います。

 

2006年に、アーロン・コブリン(Aaron Koblin) がメカニカルタークを使用し、1万件の手描きの羊を作りました。こちらのサイト(http://www.thesheepmarket.com)で、その絵がみられます。(一部購入可能)

近頃、彼とTakashi Kawashimaが共同で、Ten Thousand Cents(1万セント)アートプロジェクトを作りました。このプロジェクトは、1枚の100ドル札を1万個の断片に分け、ターカー(アマゾン・メカニカル・タークでの協力者)にそれぞれの断片を転写させました。

その結果できたものが下の画像です。(コピーを$100で購入可能です)

様々な観点で素晴らしいプロジェクトです。まず、誰がタスクを真剣にこなし、誰がいい加減にしたかということが、視覚的に一目瞭然なことに驚きました。(上の画像で、粗いところはおそらくいい加減にタスクをした例でしょう。) グーグルチェックアウトが注文を停止させそうなお札のレプリカができてますね。

-Lukas  (訳 Eri)

検索エンジンの関連性 - 実証的検定

Wednesday, April 9th, 2008

2008年4月3日

検索エンジンは私たちが目にしたり使用したりする情報をコントロールしています。その重要な要素は、検索クエリーに対して最も関連性の高いウェブページを決定するランキングアルゴリズムです。

これらのアルゴリズムの性能はど程度よいのでしょうか? 非公開ですべての大手検索エンジンが各社独自に性能評価の試みている一方で、公然としてまがいものもでまわっていますが、実際、残りの私たちが手に出来る本物のデータはどこにもありません。

メカニカルタークを利用して、検索エンジンの関連性(レリバンシー)を評価できるので、500件のクエリーをAsk, Google, Live, Yahoo(英語版)の4大検索エンジンで走らせて実験してみました。このクエリーは、現実の検索クエリーセットから任意に抽出したサンプルです。annotatorにトップ5件の検索結果の関連性を、各エンジンごとに評価してもらいました。

下の図は実験結果です:

Askの検索結果は明らかに最悪のパフォーマンスです。そのほか3つの検索エンジンでは、統計的には引き分けです。詳細をみていくと関連性が高いほうからGoogle, Yahoo, Liveの順となりますが、その差はほんのわずかです。このトップ3社の検索エンジンは約80%のクエリーを正しく効果的に返しています。

結果が意味するものは?

よくグーグルが一番よいアルゴリズムをもっていて、その検索結果が一番関連性が高いといわれますが、この調査結果がほんの少しそれを証拠付けてます。確かに、僕たちの手法は予備的で、様々な方法で改善の予備があります。たとえば、エラーバーを小さくし、さらに統計的な相違を見出すとか。。しかし、これは典型的500件のクエリケースで、少しおおざっばですが、かなり客観的な計測結果:検索結果の質としてGoogle, Live, Yahooはほぼ同程度、がでています。

この結果は、ユーザー全体の利便性を表しているわけではありません。というのは、検索エンジン間を比較できるようにするために、メインのウェブの結果(ページタイトル、URL、ページ説明の一部)のみを抽出したからです。実際には、検索エンジンはその他いろいろなもの:たとえば、プレゼンテーション、ブランディング、ビデオ、画像結果、広告等も含まれてきますが、僕たちは、そのうちメインのウェブ検索の関連性のみをテストしました。

詳細に続く・・・

The Drunk Tail: 酔っ払いの指数法則

Wednesday, April 9th, 2008

2008年4月1日

前回の投稿では100人分の写真をソーシャルネットワークサイトから抽出した方法、それらをターカーにみせ年齢、人種、知性、政治的立場、酔っ払い度といった特性について推測してもらったことをお話しました。

酔っ払い度についてはチェックボックスを用意し、素面(しらふ)を0点、酔っている(またはドラッグやりすぎで壊れてる)を1点とし酔っ払い度を推測してもらい、それぞれの写真において平均値を出しました。このヒストグラムでは、酩酊度が指数法則的に分散しているのがわかります:

最後に、ちょっと戒め的なグラフです。酔っ払い度と知性の推測結果の間に、明らかな関連性がみつかりました。

知性スケール:0 = “あほ” 、 1 = “鈍い” 、 2 = “平均的” 、 3 = “頭がよい” 、 4 = “天才”

- Mike    (訳 Eri)

人の顔をみて何がわかる?

Wednesday, April 9th, 2008

2008年3月31日

ソーシャルネットワークサイト(SNS)にアップロードされた写真は、他人にどのようにみられているのでしょう?ソーシャルネットワークから約100人分の写真を取り出し、ターカー(アマゾン・メカニカルタークでの協力者)に写真に写っている人の年齢、人種、知的度、政治的立場、酔っ払い度といった特性を推定してもらいました。不平等にならないよう、バッチには自分たちの写真も含めました。

以下、3つの特性軸別に、それぞれの写真を並べています。

リベラル ⇔ 保守派

若い ⇔ 老けてる

頭悪そう ⇔ 賢そう

この実験の詳細:

人種の推測に関しては、ほぼすべてのターカーで一致しました。次回は、顔写真の本人がプロフィールに書いている人種とターカーの推測意見を比較してみようと思います。

推定年齢に関するメジアン(中央値)エラーは、実際よりも2歳若いと出ました - これは写真が1~2年前に撮られてる可能性が高いという点で、理にかなってるといえます。また、30代40代の人の高校時代の写真において、いくつかの大きなマイナスエラーがでています。下の図は、推測エラーのヒストグラムです。(X軸は推定年齢-実際の年齢)

当然、知的度の推測結果と年齢の推測結果間には関連性がみられました。

お気づきのように、僕たちはこういった質問で楽しんでいますが、これらの実験データから不純物を取り除き精度の高いデータを生成するアイデアも持っています。次回の分析対象になる興味がある方は、ドローレス・ラボのFacebookグループに参加してください。

次回の投稿では、酔っ払い度の分析について探ります。

- Mike (訳 Eri)

クラウドソーシングを利用しメディアの偏見度を検出:ヒラリー対オバマ

Wednesday, April 9th, 2008

2008年3月27日

政治の選挙戦に関心のある人なら誰でも知ってるように、同じイベントでもメディアによってかなり異なる形で報道できます。先月の6000件近くのクリントンとオバマについての記事をメカニカルタークに放り込み、各記事が各候補者について好意的か非好意的かを分類してもらいました。Googleニュースからソースを限定して収集した記事と、Diggのフロントページヘッドラインを使用しました。

下のグラフは、好意的記事の各メディアソースごとに集計したものです。(Pro-Obamaは、オバマに好意的) Diggの記事は、飛び抜けてオバマに好意的です。

次のグラフは、日付別にすべてのニュースの各候補者への好意度を示したものです。背景状況を提供するため、Intradeのマーケット予測のオバマ株における変化と比較しています。

この実験の詳細:

まず、”バラック・オバマ”と”ヒラリー・クリントン”それぞれに対して、別々に検索をかけ、データセットを用意しました。これは、グーグルニュースやDiggの検索結果が、その記事がどのように候補者について書かれているか強調するという点で有意義だったと思います。

次に、ターカー(メカニカルタークでの協力者)に各記事のヘッドライン、検索結果の一部、リンクを見せ、その記事が各候補者に対して 肯定的、中立的、否定的かを回答してもらいました。

各記事に対する点数を平均化することによって、好意性の測定基準にしました。プロ・オバマ(オバマに好意的)な記事とアンチ・ヒラリ(ヒラリーに非好意的)な記事をともに1とし、その逆のアンチ・オバマな記事とプロ・ヒラリな記事をともに-1、中立的な記事を0としました。

したがって、もしすべての記事がオバマ氏に対して好意的または、ヒラリーに対して非好意的であれば、レイティング(率)は100% またはその逆の-100%になります。

このデータは非常に多くのノイズを含んでいます。というのも、好意的かどうかというのは、期待、感情、また新聞紙が選んだ対象イベントなどといったすべての組み合わせに左右されるので、非常に微妙な質問です。これらの事象はどれも確実に評価したり、定義することさえ難しいものばかりです。(また、回答者のメディアバイアス(メディアに対する偏見)も、また問題を複雑にしています。)

このように冷静に考えると扱いづらいとはいえ、Diggとそれ以外のソース間での違いは統計的に顕著 ( t-test , p<.001)という結果を得たという事実は、データは何らかの本質を示しているはずです。ちなみに、主流メディア内での違いは、統計的に特に著しくありませんした。

- Brendan , Chris , Lukas , Mike

(訳 Eri)

色名データの素晴らしいクラウドビュー

Tuesday, April 8th, 2008

2008年3月20日

IBM Researchのマーティン(Martin Wattenberg)が僕たちの色名データを使用して、かっこいい新しいクラウドビュー(図)を作ってくれました。

僕たちのオリジナル図のように各色名をプロットする代わりに、彼は、まず同色名ごとにグループ化し、その場所の平均値を割り出し、文字サイズによって出現頻度を表現しています。一般的に使われる”red(赤)”や”green(緑)”といった言葉は、当然出現頻度が多いので、図上には大きなサイズの文字で表されています。 この方法で、とても結果がわかりやすくなりました。(そして、黒色背景のほうがよくみえますね。)

マーティン、ありがとう!

色名データセットをアップしました。

Tuesday, April 8th, 2008

2008年3月18日

前回投稿した色名に関する実験のデータセットをまとめてアップしました。全部で10,000件の色とラベルの組み合わせがあります。

こちらからダウンロードできます。

下準備としては、まず、なるべく面白いカラーサンプルを用意しました - もちろん、非常に主観的ですが。特に気をつけたことは、標準RGB値で一面に点在する暗いグレーを省いたことです。(結果、色環図に大きなドーナツホールができてしまったので、もしかしたらやりすぎたかもしれません。)色サンプルは、HSVから色相を均一に抽出して作りました。(通常の分散をもとに)彩度は比較的高値を利用。これに関する正確なコードと変数はダウンロードファイルに含まれています。

前回の投稿したプロット(図)とエクスプローラーは、角度的に色相を示した色環のようですが、実際は最初の二つの要素XとYを使用して、RGB値にPCAを走らせた結果です。適当に決めた方法でしたが、結構よい視覚的効果が作れたようです。他にもたくさんの合理的なデータプロット方法があります。

データは匿名化した協力者情報を含みます。(メカニカルタークサービスはすべての協力者(労働者)を匿名化しますが、このデータセットの公開に際してさらに匿名化しました。)データをみると、特定の協力者(労働者)が何度も回答をしたことがわかります。この実験に関しては、回答者のデモグラフィック情報(人口統計学的な属性データ)はありません。ごめんなさい。

ダウンロードファイルの中身は以下の通りです:

data.csv: 色名/ラベルのペアと各色のRGBとHSV値。
R.R: データ生成とプロット部分を含む。を使用する際の、どのようにデータを読み取り、使用するかの例を含んでいます。
html.rb: write_html()とともにエクスプローラを作成。
sample-hit.html: データ収集に使用したウェブフォームのひとつ。全部でそれぞれ10色を表示した1000種のフォームを使用しました。各フォーム( “ヒット” )に対し、各一人のannotatorが記入回答しました。annotatorが希望した場合、複数フォームを回答したケースもあります。

この実験結果は、いかがでしたか?ご意見、ご質問、サイトに関する不具合等がありましたら是非お知らせください。また、もしこのデータを利用活用されることがあれば、その内容を是非聞かせください。

- Brendan

どこまでが青?どこからが赤?

Tuesday, April 8th, 2008

2008年3月17日

あなたはこれらの色をどう呼びますか?

                   

ランダムに並べられた色に対してこんな質問をしたらこんな答えが返ってきた。

これはその答えをカラーホイール状にまとめたもの。約1300色あります。
ざっと見ると、原色を表す言葉は同じエリアに集中しています。よく見ると、”light”,”dark”,”sea”などのように色を修飾する言葉を使ったり、複数の単語(”army green”)を組み合わせて使う人、また聞いたこともないような表現(”cerulean”)をする人もいることがわかります。(ceruleanは絵を描く人の間ではよく使われる色名だというコメントを頂きました。→Brendanより「ごめんなさい。僕のミスです。LukasとChrishは絵描きなんですよ。」)

詳しく見てみたい人のために「カラーエクスプローラ」というのを作ってみました。色の名前などを入力すると、下の様に視覚的にに見ることができるのでお試しを。(このアプリケーションはダウンすることがあるので、使えない場合は下のスクリーンショットで我慢してね。。。)

explorer-screenshot-full.gif explorer-screenshot-full.gif
explorer-screenshot-full.gif explorer-screenshot-full.gif

このプロジェクトは1970年代に行われた有名なこの実験、 World Color Survey にヒントを得ています。World Color Surveyでは「言語の普遍性」を証明するために多くの言語のスピーカーに色の名前を聞きました。

これのデータはまだ英語に限定されてますが、日本語でも是非やってみたいと思っています。興味のある方は是非ご連絡ください。

また、上のカラーホイールは一部のデータしか使っていません。もっといいビジュア化のアイデアを持っている人や、統計的な分析を行いたい人はコンタクトしてください。データを提供します。

UPDATE 3/18: データセットをアップしました

-Brendan

1954年以降スポーツ雑誌の表紙で特集された人物とスポーツの変化: フットボール人気の上昇につれて、白人選手の登場率は下降

Tuesday, April 8th, 2008

2008年3月13日

現在、画像イメージに関する基本情報コメントをつけるのに、人間に勝るものはいません。

雑誌の表紙について何かおもしろいことが見つけられないかと考えていました。

1954年版にさかのぼる2800枚のスポーツ絵表紙を手にして、僕たちはそれらをメカニカルタークに放り込み、特集されてる人物がいればその人物の人種と性別、そしてどのスポーツの選手かを識別してもらいました。

たくさんの興味深い結果がでました。ここでは、グラフにしたその興味深い結果の一部を紹介します。

これは、スポーツ雑誌の表紙に現れる頻度を人種別に時系列グラフにしたものです。結果は、単純かつ印象的です。

次に、どのスポーツが表紙で特集されたか?という質問ですが、下のチャートは主なスポーツの出現率を時系列に表示しました。

有名なスポーツ選手とそのスポーツの人気度の高低で関連性をみつけることができるかもしれません。たとえば、ボクシングのピークは70年代ですが、その頃モハメドアリが活躍していましたし、バスケットボールのピーク90年代にはマイケルジョーダンがいました。ゴルフが90年代に入って人気復活したのはタイガーウッズの出現によるかもしれません。

データには他にも多くのスポーツが含まれていましたが、このチャートでは人気トップ3と特に興味深い結果を示したスポーツ3種のみを取り上げました。たとえば、かつてもっと人気のあった競馬のようなスポーツなどは含まれていません。よって、このチャート内の数字を各時期ごとに合計しても、パーセンテージは100%になりません。

詳細を含めたすべてのスポーツの結果チャートに興味がある方は、こちらをご覧ください

- Brendan

The Manifesto マニフェスト

Tuesday, April 8th, 2008

2008年3月13日

僕が初めてアマゾン・メカニカルタークを利用したのは検索エンジンのスタートアップPowersetにいたとき。自分たちの初期内部アルゴリズムの質をYahooやグーグルの結果と比較するために利用しました。当初、検索結果の質を比較するフルタイムの社員を雇わなければいけないと思っていました。

実験的に、品質管理なしで、メカニカルタークにタスクを設けて、50ドルほどいれて一晩実行させてみました。返ってきたデータは、使えないデータも含まれたいたものの総合的には検索エンジン間での有意義な相違がみられました。社内で、人を雇うために承認を得る必要も、仮デザインを委員会に通して結果がでるのに1ヶ月待つこともなく、すべて一人で実行可能でした。自分一人で経験に基づいた実験をデザインし、そのデータ収集そのものについて大規模な実験を実行できたのです。

以前、マシンラーニング(機械学習)についてどんな論文を書こうかスタンフォードで考えていたとき、会話はいつもどんなデータセットが利用可能かということに左右されていました。現存する使用可能データを把握し、そこから何をしたいかを見極めていたのです。ある目的のためにデザインされたデータを転用するための議論に膨大な時間を費やしていました。データを使用する多くの分野で同じことが起きていると思います。

ドローレスラボでは、独自に構築したツールを使用し、メカニカルタークやその他の場所で、そういった大量のデータを効率的に速やかに収集処理しています。このブログを通して、その僕たちが開発した技術で遊ぶ機会を提供できたらよいと思います。

AMT(アマゾン・メカニカルターク)の仕事を初めて作ったとき、他にも実行したいたくさんのクレイジーな実験を思いつきました。
一晩で、一番安い航空会社を見つけることができるか?人が赤とオレンジを区別する正確な閾値をみつけられるか?FOXニュースとNPR(米国国営ラジオ局)の感情の違いを数字化することがでるか?等々・・・

学生時代、芸術の先生が全員一日20枚の絵を描かせていました。とにかく多くをこなすことによって、速いペースで物事を進め、どんどん新しいことに挑戦させたのです。僕たちの実験は、そんな感じで、(多分他の科学的アプローチとは違いますが)できるだけ速く安価にデータを収集し分析できるので、面白いデータを敏速にみつけられます。

現在、ブレーンストーミングをして、今後実行する実験プランを練っています。皆さんからも、もし収集してみたいデータのアイデアがあればご連絡ください。

クールなアイデアがあれば、僕たちがデータ収集をする代わりに、このBLOGを通して、ゲストの皆さんに簡単な分析を返してもらうという共同作業ができると思います。

それでは、近日中に、様々な実験結果を公開予定ですのでお楽しみに!
- Lukas