ページ類似度判定はリンクページ/要素類似度で。
同じの要素同士を組み合わせて、要素に類似度判定を任せる。日付記法なら近い日付ほど高い類似度になる。
同じが複数あるときの組み合わせは??

類似点をつなぐ Edit

あるページの類似点1つだけ(要素の1種類だけ)の類似度が、高いページの一覧を作って、あるページの類似ページとする。
類似点ごとに類似ページ一覧ができるのをすべて示。類似ページは「何つながりか」でグループ化。
「同じページリンクしている」というScrapboxのような類似点もここに示。
近傍検索

ファセット分類とは異なる Edit

本質は同じ。でも検索結果などといったページセットの中を分類するファセット分類とは異なり、こちらは類似ページを見つける処理で、分類の前段階。なので類似ページを集めた後で、ファセット分類を併用することもできる。

リンクだけでも類似度判定可能 Edit

文字ではなく、ページ内のリンクだけを比較するだけで類似度判定できる。
これなら処理量が少なく、インデックスも作成可能。(AutoLinkする際に使うインデックスがそのまま使えそう)
ページ/差分

分類と類似度、2つの尺度 Edit

2つの尺度をどう組み合わせるか。
→ボトムアップで。

 

章をページ化するのは.png

類似

  • Aの中で
    1-1
  • Bの中で
    1-1
  • ■(左上のほう)と▲で
    A-B

…がそれぞれ似ている。

 

→図か1つ特定して似ているものを階層問わず示。子要素は親の特性を決める。末端の子は内部のリンクが特性に。親の類似度リンクと子で決まることになる。

…こうすると、直近の親への影響が一番強くなる。
で、

1に近いのは順に
1のみ。(「1」を文字と考えて)
2に近いのは…
2
5に近い…
なし
■(左上の)なら…
■(左上)
A…
B、Cと■右下(同率)、D
C…
AとB(同率)、■(右下の)
D…
AとB(同率)
…がそれぞれ近いと判断できる。