ページの類似度判定はリンクページ/要素の類似度で。
同じ型の要素同士を組み合わせて、要素に類似度判定を任せる。日付記法なら近い日付ほど高い類似度になる。
同じ型が複数あるときの組み合わせは??
類似点をつなぐ †
あるページの類似点1つだけ(要素の型1種類だけ)の類似度が、高いページの一覧を作って、あるページの類似ページとする。
類似点ごとに類似ページ一覧ができるのをすべて表示。類似ページは「何つながりか」でグループ化。
「同じページにリンクしている」というScrapboxのような類似点もここに表示。
近傍検索。
ファセット分類とは異なる †
本質は同じ。でも検索結果などといったページセットの中を分類するファセット分類とは異なり、こちらは類似ページを見つける処理で、分類の前段階。なので類似ページを集めた後で、ファセット分類を併用することもできる。
リンクだけでも類似度判定可能 †
文字ではなく、ページ内のリンクだけを比較するだけで類似度判定できる。
これなら処理量が少なく、インデックスも作成可能。(AutoLinkする際に使うインデックスがそのまま使えそう)
→ページ/差分
分類と類似度、2つの尺度 †
2つの尺度をどう組み合わせるか。
→ボトムアップで。
類似
Aの中で
1-1Bの中で
1-1■(左上のほう)と▲で
A-B
…がそれぞれ似ている。
→図か1つ特定して似ているものを階層問わず表示。子要素は親の特性を決める。末端の子は内部のリンクが特性に。親の類似度はリンクと子で決まることになる。
…こうすると、直近の親への影響が一番強くなる。
で、
1に近いのは順に1のみ。(「1」を文字と考えて)2に近いのは…25に近い…なし■(左上の)なら…■(左上)A…B、Cと■右下(同率)、DC…AとB(同率)、■(右下の)D…AとB(同率)
…がそれぞれ近いと判断できる。