オブジェクト作成者とタグ付けする主体との同一性に関する議論

今回のお題はこれ。
Folksonomies - Cooperative Classification and Communication Through Shared Metadata
Adam Mathes 2004年12月に発表されたもの

◆分類する主体に関する議論
フォークソノミーといえばタグ。タグといえばメタデータだが、冒頭でメタデータのつけかたを分類している。ただし、この人の所属はGraduate School of Library and Information Science University of Illinois Urbana-‍Champaignなので、図書の分類をベースにしたもの。

professional creation and author creation
be created by auther
user-created metadata

と表記されている。

professional creation and author creationの最大の問題点はやはり
scalability and its impracticality:分類の対象物が大量にあると、少数の専門家(多数の専門家なんてことはありえない。希少だからこそ専門家)が分類作業をこなしきれない
ということ。

be created by auther の場合、inadequate or inaccurate description（不適切で不正確な記述）, or outright deception(完全なごまかし）などと、コテンパンである。図書館学ではそこまで著者の言い分は信用されていないのか？　ま、著者は自書に半端ないこだわりを持つからそれを鵜呑みにしていったら、図書分類などとでもじゃないがやってられないのかもしれないが（笑）

そして、これら２つには致命的な欠点があるという。それは
意図的であろうが意図的ではなかろうが、結果的にユーザは分類プロセスと切り離されている
ことである。

というわけで、上記２つの分類方法を切って捨て、オルタナティブとして持ってきたのがuser-created metadata、つまりフォークソノミーというわけだ。

ここからはウェブにおけるmetadataの考察に移る。
とりあえずフォークソノミーといえば用いられるのがdel.icio.usとFlickr。
英語の論文のほとんどがこれらのサイトのデータを用いたり、これらのプラットフォームを議論の前提としている。しかし、冷静に考えたら蓄積しているオブジェクトの形態だけじゃなく、利用目的もかなり違うはず。日本のサイトで考えれば、GREE Photoとはてなブックマークを同じ目的で使う人はまずいないはず。で、この論文ではこれら２つのサイトの違いを以下のように説明する。

del.icio.us:オブジェクト＝ウェブサイトの製作者とタグ付けをする人＝ユーザは異なる
Flickr:オブジェクト＝画像の製作（撮影）者と蓄積・タグ付けをする人は同一であることが多い

つまり、この論文での３つの分類方法に照らし合わせて考えると、

del.icio.us → user-created metadata
Flickr → be created by auther

であり、ぜんぜん違うものということになる。*1というよりも、Flickr（やはてなフォトライフやGREE Photo）のタグからはフォークソノミーは実現しない、ということ？？

ちなみに、コテンパンにされた be created by author だが、著者はこんな成功例＝Dublin Core Metadata Initiativeがあるという、、、、ということでこちらの論文も読んでみましたが、こっちは論文投稿の蓄積ということで、投稿者の質や持っている概念構造がかなり均質な様子。一般的なウェブサイトや書籍などには当てはまらない事例と考えます。

このあと、2004年時点でのdel.icio.usの生データ分析（といっても上位タグの中身を列挙しているだけですが、、、、）がありますが、この部分は省略。

◆タグの持つ機能についての分析。
タグは（ヒエラルキーによる）コントロールがなされないがために、限界を有するとしている。この点は後に著されるこちらの論文の方がさすがに詳しくなる。

逆にフォークソノミーというよりもタグによる分類の共有が持つ利点についてのまとめは、ユーザサイドの意識や利用実態を捉えていてかなり使えるもの。具体的には、、、

serendipity
directry reflects the vocabulary of users
fundamentalshift in that it is derived not from professionals or content creaters

一つ目のserendipityとは詳しくは

セレンディピティ~恋人たちのニューヨーク~ [DVD]

出版社/メーカー: ショウゲート
発売日: 2006/06/23
メディア: DVD
クリック: 67回
この商品を含むブログ (58件) を見る

を観ていただくとして、日本語に訳せば「幸運な偶然」ですね。
タグのリンクを辿ることで、幸運にも未知ながら自身の興味にあうサイト（や書籍など）と出会うことができるというやつです。ここらへんはちょっとロマンティックなまとめ方をしているので（そりゃ、serendipityなんて言葉を使っているのだから、、、）ちょっと訳しておきます。

面白いコンテンツを探すためにウェブサーフィンしているのと、サーチエンジンによって適切なドキュメントを直接検索するのとでは根本的に異なるのだ。その違いは答えを探すために問題のありかを探し回るのと、反対に特定の回答を直儀的に見つけるのと違い同様である。探索行動は文脈によって異なってくる。

このニュアンスは原文をご覧いただいたほうがいいが、例えるならば

国立大学の数学試験のようにプロセスを見つけながら正解たどり着くことをもとめられるもの
マークシート試験のように答えをとりあえず選べば点数がもらえるもの

の二つがあり、それぞれ全く異なった文脈によって行われているということ。

もちろん前者はネットサーフィンによって面白いサイトに出会うという体験、後者は検索エンジンによって必要なサイトを探し出す行為を指す。そしてタグの共有は前者の体験のバリエーションを増やすものだと言っている。

この見解には、個人的にはちょっと突っ込みどころがあるように思える。なぜなら、タグのリンクを経由したフィルタリングだって、いわばクエリを使ってコンテンツの絞込みを行っているという点で検索エンジンと比べて大差ないとも思えるからである。

二つ目はユーザが用いている語彙がそのまま用いられること、なのだが、これに関しても私は同意しがたい。語彙そのものがユーザベースであることが本当にフォークソノミーの利点なのだろうか。ユーザ個人個人が勝手気ままに単語を使っているがために生じるウィークポイント＝synonymy:同義性・同義語の存在は無視できないと考える。

フォークソノミーの利点はあくまでもボトムアップによる"体系"が生じることであり、体系が持つ価値はユーザが制約なく語彙を使うことにより生じるデメリットを補って余りあるとはいえ、できれば同義語の存在はできれば無くなってほしいところである。

三つ目に関しては完全に同意。特に not from content creators であるところを重視したい。この著者は「ユーザが分類する」というところに特にこだわるが、それについては私も同様の立場をとる。これを現存するウェブ上のサービスに当てはめて考えるとソーシャルタギングといわれるいくつかのサービスを一律に取り扱うことはやはり危険であるし、folksonomyという語をどこまで適用してよいのかについても考慮しなければならないのではないか。

◆folksonomyという呼称は正しいのか、という議論
逆にタグの取り扱いに関する注意点についてはPeter Merholzの"Metadata for the Masses"という論文を引用しつつ以下のようにまとめている。

（フォークソノミーのタグ集合で用いられる）ユーザが用いる語彙は前もって他者"pave the paths（舗装された道）"とは全く持って異なるのである。もう一つのポイントはユーザが用いようとする語彙はあまりにも早く移ろうものである、著者やシステム設計者のそれとは質的に違うのである。

また、Merholzは"folksonomy = folk + taxonomy ethnoclassification"という単語をタグ集合に用いてよいのかという議論も行っている。タグ集合が表す分類は

classification(classには「等級」という意味も含まれるのに注意）ではなく
categorizationではないか

つまり、ヒエラルキー構造を持ちようがないのだから単純に「カテゴリわけ」とすべきなのではないかと提起している。こちらについての参考文献は

The Organization of Information (Library and Information Science Text Series)

作者: Arlene G. Taylor
出版社/メーカー: Libraries Unlimited Inc
発売日: 1999/03
メディア: ペーパーバック
この商品を含むブログ (1件) を見る

遂に出てきた。まとまった分量を持つ書籍化論文。幸いにして我が大学の図書館の蔵書なのであたってみるか、、、

ただ、この議論に深入りする必要は個人的にはないと考えます。私の研究の意義は「これまで生成されることのなかった新しい形式・性質を持つデータの扱い方について提言する」ことにあるのだから。ただ、違いは違いとしてきちんと踏まえておかなければ、、、、

◆コストに関する議論
ただ、この部分には注目したい。

時間や労力といったユーザのコストは複雑な階層分類の手法よりもはるかに少ない

えー、ここまで言い切ってしまっていいの？という感はしなくもないが、、、、
これをちゃんと定量的に言えればかなり画期的なわけだから、Yahoo!の財務諸表でも紐解いてみますかね、、、それでも、Professionalによる分類とユーザによる分類とでは質的に異なるのだから、単純にコストを比較することはできないといえばそれまでなのだが、、、

コストについてはこれとは別に、Stewart Butterfield@Flickr(ってことは今はYahoo!か？）の以下の発言を取り上げている。

階層構造や同義語コントロール、語義の厳格さの欠如こそがそれ（ソーシャルタギング）を機能させているのだ。自由記述によるラフなタグ付けは前もって定められた（特に階層構造を持った）分類体系に合致するように単語を決めるよりも非常に簡単だ。分類体系に対する「適切さ」の価値は9割程度になるが、10倍単純にやってのけられる。
〜"sylloge." 2004年8月4日のエントリ

ま、これはブログのエントリですからね、、、興味はわくけれど、この厳密な定量的測定は事実上不可能ですな、、、ついでにここまで極端なものではないだろう、という突っ込みは各方面からすでに起きているようで、、、

◆ユーザの行動・動機分析
タグの性質については"feedback loop"に関する議論も紹介している。feedback loopとはここでは先に用いられている単語ほど繰り返し使われる傾向にあるというもので、そりゃ分類＝後から容易に探し出すのが目的なのだからやみくもにタグ＝分類の数を増やすことに意味はないよなぁ、と。ただ、これについては時系列分析をするしかないですな。

タグ付けの動機については

自分の検索の利便性のため
コミュニティでの協働

という2つがあり、これらは"mutually exclusive"なのだそう。
本当にmutually exclusiveなのかどうかについてはかなり疑問。
しかし、協働について触れられている部分では

ヒエラルキー構造がないので、協働して体系を作るのが比較的容易

であることには納得。広く参加されている（それでもまだまだマイナーですが、、、）からこそ、注目される現象になっているわけですし。

◆フォークソノミーによる新たな語彙の創出
この現象は面白いかも。Flickrのあるユーザが同じパターンの画像に同じタグ、"flicktion"という自身の造語を付けてポストしていたところ、他のユーザにも広がったという事例*2。日本のサービスでもあるのだろうか、、、もしかすると一部の顔文字とかはこの事例にあてはまるのかも。

最後には定量的な分析が求められる、、というので閉められるこの論文、2004年12月当時に書かれてから今までの間に意外とそのような調査分析が行われていなかったのは意外である。（でなければ、自分がこのテーマを選べなかったわけだが）ま、2005年はどちらかといえばBlogやSNS分析の方が盛んだったので、、、2007年は自分も含めてタグ分析に関する分析がもっと出てくるか??

*1:もちろん、本文中にもあるが、完全に、ということではない

*2:事例が詳しく載っているのはこちら