集合知による景観の特徴づけ
Characterization of landscape by collective inteligence

 多くの人の予想や意見を総合すると,よい予想や結果が得られることがある.これを, 集合知(collective inteligence)あるいは, 群衆の英知(wisdom of crowds)と呼んでいる.情報技術の進展により,多くの人の 意見を収集して集約することが比較的容易に行われるようになってきたので, 最近注目されている概念である.
 集合知は以前から知られていた.たとえば,株式市場や競馬のオッズなどがこれにあたる. 株式市場でのバブル崩壊の例でもわかるように,集合知がいつもうまくいくわけではない.
 ウィキペディア によれば,集合知がうまく行く条件として, の4つを与えている.

集合知を利用した景観解析

 現在,多くの学生が写真機能つき携帯や,デジカメを所有している.また,ネット環境も充実しているので, 画像データを収集するのはとても容易になってきた.そこで,多くの学生に画像データを収集してもらい, ターゲットとなる景観の特徴付けを行うことを試みた.

画像収集法

 2008年度学生実験において,夏休みの課題を出した.  田無農場で自分の気に入った景観を3点撮影し,それを選んだ理由をできるだけ詳しく記述して,メール で提出させた.
結果は以下のようであった.

画像類似度の推定

 ウェブ上に、 画像グルーピングサイト を構築し,後期の学生実験で 学生に類似画像をグルーピングしてもらった.2つの画像が同じグループに属した 割合で,画像間の類似度が推定できる.
 類似度行列から多次元尺度法(MDS) により景観の配置が得られる.計量的 MDS の固有値が,

 軸  第1軸  第2軸  第3軸  第4軸 
 固有値 8317.5 7335.7 4118.7 2152.9

となったので類似度の情報は,第1軸と第2軸で表現できることがわかる.
景観の配置図を図示すると,三角形になったので,各頂点を色づけした.これより,田無農場は 3つの景観で代表されることがわかる.これらの番号は,それぞれ,

> g1#red
 [1]  4 48 65 32 35 24 30 12 53 56 18 58 33 23 46 44 66 36 19
> g2#blue
 [1] 25 55  1 64 13 26 17 34 63 50 31 29 41 62 47
> g3#green
 [1]  2 54 43  9 27 51  3  8 40  6 57 37
> g4
 [1]  5  7 10 11 14 15 16 20 21 22 28 38 39 42 45 49 52 59 60 61

であった.
 なお,22名の撮影者の撮影画像を三角形で結ぶと三角形頂点グループをすべて撮影した 学生は2名だけであった.

 景観の具体的内容は, 田無景観配置図 に示した.
 これをみると,左側の頂点(g1)は畑などの 19 の景観で, 右側の頂点(g2)は道路を中心とした 15 の景観, 上の頂点(g3)は,サイロや倉庫などの 12 の人工物景観を表し ている.その他の 20 景観(g4)はこれらの中間的な景観であった.

画像説明文の解析

 画像説明文の文章を形態素解析により品詞分解することにより,自由記述文章を統計的に解析 することができる.

ソフトウエア

 日本語形態素解析を行うソフトとしては,茶筅やメキャブが有名であるが,ここでは,R 上で 形態素解析が行えるメキャブを用いた.

形態素解析の例

 形態素解析の様子を理解するために,'t02.txt' というファイル名の,
「道が好きです.でかい人工物が好きです.」
を形態素解析にかけてみる.

> library(RMeCab)
> RMeCabFreq("doc/t02.txt")

file = doc/t02.txt
length = 8

    Term  Info1        Info2 Freq  
1     。   記号         句点    2  
2 でかい 形容詞         自立    1  
3     が   助詞       格助詞    2  
4   です 助動詞            *    2  
5   人工   名詞         一般    1  
6     道   名詞         一般    1  
7   好き   名詞 形容動詞語幹    2  
8     物   名詞         接尾    1  

このように,文章が品詞ごとに分解される.

多数の文章の比較

 多くの文章を比較して,どのような単語がよく使われるかなどを調べたい場合がある.このときは, フォルダ内の全文章を形態素解析し,文章ごとの単語の出現回数を行列で表現する.文章間の関係が あまりないときは,スパースな行列ができやすい.  'doc' フォルダに田無景観の 66 の説明文が入っている.これらの文章から名詞と形容詞を抜き出し, 単語×文章行列を作成する.

> radj2 <- docMatrix2("doc", pos=c("名詞", "形容詞")
> dim(radj2)
[1] 502  66
> radj2[1:10,1:5]
             t01.txt t02.txt t03.txt t04.txt t05.txt
10                 0       0       0       0       0
1                 0       0       0       0       1
1つ               0       0       0       0       0
2                 0       0       0       0       0
2つ               0       0       0       0       0
4月               0       0       0       0       0
いい               0       0       0       0       0
おもしろい         0       0       0       0       0
かわいらしい       0       0       0       0       0
がらんどう         0       0       0       0       0
> max(radj2)
[1] 6

502 の単語が見つかった.一部表示してみると,非常にスパースであることがわかる.また,同じ単語 が一つの文章に最大 6 回出現している.
 単語の使用頻度上位30をみると,

> sall <- apply(radj2, 1, sum)
> ordall <- order(sall, decreasing=T)
> sall[ordall[1:30]]
    道   農場   もの   風景   写真     さ   好き     畑   こと   ため   場所     中 
    30     26     23     20     19     18     17     17     16     16     16     16 
  田無     木   ない     緑     の     上     空   よう   自分   木々   とき   良い 
    16     16     14     14     13     13     11     10     10     10      9      9 
ポプラ   景観   自然     人   ここ   一番 
     8      8      8      8      7      7 
となった.

グループごとの文章の比較

 田無景観は,景観グルーピング実験から4つのグループに分かれることがわかった.グループごとの 単語の出現パターンを調べてみる.

> s1 <- apply(radj2[,g1], 1, sum)
> ords1 <- order(s1, decreasing=T)
> s2 <- apply(radj2[,g2], 1, sum)
> ords2 <- order(s2, decreasing=T)
> s3 <- apply(radj2[,g3], 1, sum)
> ords3 <- order(s3, decreasing=T)
> s4 <- apply(radj2[,g4], 1, sum)
> ords4 <- order(s4, decreasing=T)
> s1[ords1[1:30]]#red
          畑         写真           さ         風景           の         もの 
          13           10            9            7            5            5 
        管理         自主           上           木           緑           奥 
           5            5            5            5            5            4 
        景色         好き         対比           中         農場         ここ 
           4            4            4            4            4            3 
        こと トウモロコシ   マンション           空         景観         個人 
           3            3            3            3            3            3 
          後         広い         作物         自分         周り         場所 
           3            3            3            3            3            3 
> s2[ords2[1:30]]#blue
        道       農場       こと       ため       田無       風景         さ 
        22          9          8          8          6          6          5 
      とき     ポプラ       良い         緑       もの     見通し       場所 
         5          5          5          5          4          4          4 
        中       豊か         木       ない ハナミズキ         下       感じ 
         4          4          4          3          3          3          3 
      好き         上       地面       適度       部分     明るい       木々 
         3          3          3          3          3          3          3 
      それ     ところ 
         2          2 
> s3[ords3[1:30]]#green
    もの     機械     好き     農場       の   サイロ     農業     ない     機会 
       8        5        5        5        4        4        4        3        3 
    建物     宿舎     人工       物     ここ   でかい ロボット       何     古い 
       3        3        3        3        2        2        2        2        2 
    仕事     自然     自分     車両     鉄道     田無     日常   農作業     風景 
       2        2        2        2        2        2        2        2        2 
  並木道       木     夕方 
       2        2        2 
> s4[ords4[1:30]]
    場所       中     農場     ない       道     もの     よう ダチョウ       空 
       9        8        8        7        7        6        6        6        6 
    写真     こと     ため     好き     田無     風景       木       さ       桜 
       6        5        5        5        5        5        5        4        4 
    自分       上       人     木々   ポプラ     暗い     一番     景観     広い 
       4        4        4        4        3        3        3        3        3 
      私     自然     実習 
       3        3        3 
> 

 全体での用語使用回数順に50位まで並べたとき,各グループの使用回数をプロットした.

        道       農場       もの       風景       写真         さ       好き         畑       こと       ため 
        30         26         23         20         19         18         17         17         16         16 
      場所         中       田無         木       ない         緑         の         上         空       よう 
        16         16         16         16         14         14         13         13         11         10 
      自分       木々       とき       良い     ポプラ       景観       自然         人       ここ       一番 
        10         10          9          9          8          8          8          8          7          7 
        奥       管理       景色       広い       自主       多い         的       農業   ダチョウ マンション 
         7          7          7          7          7          7          7          7          6          6 
        下       人工         日         圃       豊か     明るい       感じ       機械       建物     見通し 
         6          6          6          6          6          6          5          5          5          5