色名データセットをアップしました。
2008年3月18日
前回投稿した色名に関する実験のデータセットをまとめてアップしました。全部で10,000件の色とラベルの組み合わせがあります。
下準備としては、まず、なるべく面白いカラーサンプルを用意しました - もちろん、非常に主観的ですが。特に気をつけたことは、標準RGB値で一面に点在する暗いグレーを省いたことです。(結果、色環図に大きなドーナツホールができてしまったので、もしかしたらやりすぎたかもしれません。)色サンプルは、HSVから色相を均一に抽出して作りました。(通常の分散をもとに)彩度は比較的高値を利用。これに関する正確なコードと変数はダウンロードファイルに含まれています。
前回の投稿したプロット(図)とエクスプローラーは、角度的に色相を示した色環のようですが、実際は最初の二つの要素XとYを使用して、RGB値にPCAを走らせた結果です。適当に決めた方法でしたが、結構よい視覚的効果が作れたようです。他にもたくさんの合理的なデータプロット方法があります。
データは匿名化した協力者情報を含みます。(メカニカルタークサービスはすべての協力者(労働者)を匿名化しますが、このデータセットの公開に際してさらに匿名化しました。)データをみると、特定の協力者(労働者)が何度も回答をしたことがわかります。この実験に関しては、回答者のデモグラフィック情報(人口統計学的な属性データ)はありません。ごめんなさい。
ダウンロードファイルの中身は以下の通りです:
data.csv: 色名/ラベルのペアと各色のRGBとHSV値。
R.R: データ生成とプロット部分を含む。Rを使用する際の、どのようにデータを読み取り、使用するかの例を含んでいます。
html.rb: write_html()とともにエクスプローラを作成。
sample-hit.html: データ収集に使用したウェブフォームのひとつ。全部でそれぞれ10色を表示した1000種のフォームを使用しました。各フォーム( “ヒット” )に対し、各一人のannotatorが記入回答しました。annotatorが希望した場合、複数フォームを回答したケースもあります。
この実験結果は、いかがでしたか?ご意見、ご質問、サイトに関する不具合等がありましたら是非お知らせください。また、もしこのデータを利用活用されることがあれば、その内容を是非聞かせください。
- Brendan
