ヒエラルキーVSタギング と タグの機能分類

The Structure of Collaborative Tagging Systems
Scott A. Golder and Bernardo A.Huberman @HP Lab

フォークソノミーに関する重要論文解読の第2弾。
前回のHT06, tagging paper, taxonomy, Flickr, academic article, to readの中で、「数少ないフォークソノミーを取り扱った論文」として何度も引用されている。

2005年の論文ということもあり、前半部分はフォークソノミーに関する基本的説明をしている。これはこれで、学術的に整理するためのお手本であり、かなり有用。

第2章で、タイトルがStructure=構造なので、タグ付けによる意味分類の構造を説明している。タギング最大の効用(でもあり、これが弱点という指摘も多いのだが、、、)であるヒエラルキーがない分類方法を実例を挙げて説明している。これまでに読んだどんな日本語文献・記事よりも分かりやすい。なぜこれが和訳されていないんだ、、、、(だったら自分が全文和訳すればいいのか、、、)

具体的にはどういうことかというと、"Africa"(アフリカ)原産の"cats"(猫)に関する記事をフォルダを作って保存しようとすると以下のようなパターンが用いられる。

  • c:\articles\cats all articles on cats
    →catsフォルダというものの中には全ての猫に関する記事が置かれているだろうと推測できる
  • c:\articles\africa all articles on Africa
    →Africaフォルダというものの中には全てのアフリカに関する記事が置かれているだろうと推測できる
  • c:\articles\africa\cats all articles on African cats
    →全てのアフリカに生息するに関する記事が置かれているだろうと推測できる
  • c:\articles\cats\africa all articles on cats from African
    →全てのアフリカ原産の猫に関する記事が置かれているだろうと推測できる

※フォルダ構造による分類についてはこの参考文献:Jones, W., Phuwanartnurak,A., Gill, R. & Bruce, H. "Don't take my folders away!: organizing personal information to get ghings done" Proceedings of the ACM conference on Human Factors in Computing Systems (CHI). 2005

でも、3つ目の構造がいいのか、4つ目の構造がいいのかは情報を探すときの意図によって異なります。
アフリカ原産の動物に共通する特徴を見出したいという意図を持っていれば、3つ目の構造が好まれるであろうし、アフリカ原産の猫とヨーロッパ原産の猫とを比較したいというのであれば4つ目の構造が好まれるであろう。
このようにフォルダによる分類は定められたヒエラルキー構造に大きく制約されるのである。

これがタグを使えば"cats" "Africa"をつけておけば、猫に関する記事を集めたい場合は"cats"のタグをもつ記事を検索すればよく、アフリカに関する記事を集めたい場合は"Africa"のタグをもとにすればよい。つまり、ヒエラルキー構造がないために、検索者の意図に柔軟に対応することができるというわけ。

この説明の中でベン図が使われているのだけれど、ベン図って"Venn diagram"なのですね。英語だったんだ、、、、と関係ないトリビアまで仕入れることができた。

ヒエラルキータギングの分類構造の違い(これがこの論文の趣旨なのだが、、)を整理した後は、タギング/フォークソノミーの実態分析を行っている。

まずは三つの問題点を列挙。

  1. polysemy:多義性
  2. synonymy:同義性・同義語の存在
  3. basic level variation:基礎的な分類レベルの混在

特に問題になってくるのが3つ目の分類レベルの混在なのは実データを見るとますます実感できる。
ここではcatを例にして説明しているが、猫の基礎レベルは

  • シャムネコ、三毛猫、チンチラ・・・・といった種類
  • 猫、犬、虎・・・・・・といった種類
  • 哺乳類、両生類、鳥類・・・
  • 動物、植物・・・・・
  • 生物、人工物・・・・・

といったいろいろなレベルの中からどこにおくのか。
しかも、誰かが権威を持ってカチッとしたヒエラルキー構造を提示しないわけであるから、タグにはさまざまなレベルが混在してしまう。

で、この基礎レベルに関しては認知心理学領域のこの論文:Tanaka,J. & Taylor,M. "Object Categories and Expertise: Is the Basic Level in the Eye of the Beholder?" Cognitive Psychology 23(3).1991。ウェブから直接閲覧することはできなかったので、図書館に要相談(その前に今日のミーティングで相談かな、、、)。

このような基礎的な分類レベルが混在する原因というのは「タグ付けという行為は"意味づけ"をするという行為だから」なのである。
タグ付け=意味づけ(sencemaking)とは情報が「分類」され「ラベリング」されるというプロセスであり、厳密にはそれを通じて意味が生成されると定義される。この定義はWeick,K., Sutcliffe,K. & Obstfeld,D. "Organizing and the Process of Sensemaking" Organization Science Vol16 No4 pp409-421 (2005)に依っている。

また、この論文では「意味づけは社会的要因(social factors)によって影響される」とも分析されています。となるとやはり複数のSBMのタグ・分類体系を比較したいところではないですか、、、、

この論文ではdel.icio.usのデータを分析して、その結果をまとめています。この分析自体にはここでは踏み込みませんが、、、、
(使用タグの種類の傾向、増加のプロセスなどが分析されている)
ただし、この論文中での分析データは229人分。やはり、蓄積された全件データをぶん回すことはなかなか難しいわけですね。

で、有用なのがタグを機能別に分類しているところ。7つに分けています。

  1. Identifying What (or Who) it is About: 何についてのものなのか、トピック設定
  2. Identifying What it Is: そもそも対象物は何なのか。対象物の定義
  3. Identifying Who Owns It: 対象物の所有者、具体的にはブログの記事をSBMにポストする場合のブロガーの名前やブログのタイトル
  4. Refining Categories: ユーザ自身のオリジナルカテゴリ分類
  5. Identifying Qualities or Characteristics: 対象物の質や特徴を表す
  6. Self Reference: "my"で始まるタグなど。自分との関係を示すもの。いわばマーキングですね。
  7. Task Organizing: いわゆる"あとで読む"など

この分類、del.icio.usに特有のものなの?(だって、社会的要因に左右されるんでしょ)
SBM=URLを分類対象にしているからなの?
英語圏、というかアメリカのサービスだから?(言語による影響などもあるの?)
といった視点での分析は必要になりますね。
(こんなことまでブログに載せていいのか、、、)

それから、ユーザ個人にとってのユーティリティとデリシャスのユーザコミュニティ全体にとっての有用性との間の緊張関係が明らかに生じている、と指摘しています。
これは生データを見ると本当に納得できる!!!
曲者なのですよ。
で、集計データと生データを効率的に行ったり来たりできるような分析体制を整えなければならないわけになるが、やはりMS-EXCEL/ACCESSSPSSの3点使いでは厳しくなってきたかな、、、、
とりあえずRに踏み込んでみようかということで。

タグのつき方という点では、同一URLに対しどのようなタグがつくかの時系列分析の結果として、「経験的に最初の100くらいのブックマークでそれぞれのタグの占める比率が一定になる」のだそうで、だいたい100エントリみればいい、というのはマーケティングなどの現場で活用するには有用な目安というか基準。