数据格式如下:
u1 = [1,3,6,2,5,8]
u2 = [3,5,2,7,9]
...
有很多个这样的ui,大约30万个,而后面的序列中的元素是从[1,266]取值,每个ui的序列长度不等并且长度没有限制,现在想要将这些ui根据它的序列相似度来聚类。
目前的思路是:可以求ui和uj的序列交集,如果交集个数大于某个阈值或达到某个比例,就认为这两个u是一类。这应该可以替换为kmeans中的距离公式,但是本人不太懂kmeans算法,还需要各位帮助!
算法可以用python、C、JAVA都可以,介绍下思路。
O(∩_∩)O谢谢!