ページ類似度判定はリンク類似度で。

リンクだけでも類似度判定可能 Edit

文字ではなく、ページ内のリンクだけを比較するだけで類似度判定できる。
これなら処理量が少なく、インデックスも作成可能。(AutoLinkする際に使うインデックスがそのまま使えそう)

ページ/差分

分類と類似度、2つの尺度 Edit

2つの尺度をどう組み合わせるか。
→ボトムアップで。

 

章をページ化するのは.png

類似

  • Aの中で
    1-1
  • Bの中で
    1-1
  • ■(左上のほう)と▲で
    A-B

…がそれぞれ似ている。

 

→図か1つ特定して似ているものを階層問わず表示。
子要素は親の特性を決める。
末端の子は内部のリンクが特性に。
親の類似度リンクと子で決まることになる。

…こうすると、直近の親への影響が一番強くなる。
で、

1に近いのは順に
1のみ。(「1」を文字と考えて)
2に近いのは…
2
5に近い…
なし
■(左上の)なら…
■(左上)
A…
B、Cと■右下(同率)、D
C…
AとB(同率)、■(右下の)
D…
AとB(同率)

…がそれぞれ近いと判断できる。