埋堆堆算法备案信息

1、检索过滤类

  1. 算法名称:埋堆堆相似视频检索算法

算法基本原理

利用视频的标题及标签等文本信息,形成可表征视频内容的词向量,通过
计算视频间词向量的余弦相似度,来查找相似的视频。算法接收用户正在 浏览的视频标题和视频ID,可以翰出检索到的相似视频的ID

算法运行机制

1.收集全量视频的标题、标签信息,录入索引
2.定期增量更新变化的视频信息
3.通过视频ID,在索引中查找到视频的标题、标签信息,并实时计算其 TF-IDF值,形成词向量
4.计算待查询视频与索引库中其他视频的余弦相似度,按照余弦相似度大 小逆序排
5.输出排序后的视频ID给到业务端

算法应用场景

埋堆堆App短视频连续播放页内容输出

算法目的意图

为用户提供与正在观看视频内容相似的内容

算法备案号

网信算备440115912842104250015号

  1. 算法名称:埋堆堆已访问内容过滤算法

算法基本原理

利用布隆过滤器的特点,对用户访问内容的信息进行编码,转换 成布隆过滤器中字节数组对应位置的值。通过查询布隆过滤器对 应位置的值来判断,用户是否在对应的时间访问了对应的内容。 算法可以将用户已经浏览过的内容识别出来并且剔除出将要浏览 的列表,保证用户不会重复浏览视频。
算法的输入数据为将要呈现给用户浏览的内容,算法的输出数据 为用户即将浏览的视频ID,其中已经浏览过的视频已经被剔除。

算法运行机制

1.通过实时分析用户行为日志,将用户访问内容的行为编码到布 隆过滤器中
2.通过检查布隆过滤器中对应位置的值,来判断指定用户是否在 指定时间访问了指定内容。

算法应用场景

应用于埋堆堆App过滤用户已访问内容的场景

算法目的意图

通过布隆过滤器这种高效的工具,实时过滤用户已访问内容,为 用户呈现更多未访问过的内容,提高用户体验。

算法备案号

网信算备440115912842105250011号

 

2、排序精选类

  1. 算法名称:埋堆堆热播榜单内容排序算法

算法基本原理

算法通过统计剧集的历史播放数据,结合剧集在相应题材内的播放排名、相邻两天播放量提升比例等信息,确保热播剧集能够得到曝光,同时也保障了榜单的新颖性。

算法运行机制

1.统计当天播放量最多的100部剧集
2.统计每个题材下,当天播放量最多的100部剧集
3.统计对比前一天,播放量提升比例最大的100部剧集
4.统计每个题材下,对比前一天,播放量提升比例最大的100部 剧集
5.排除已下线的内容
6.按照以上各个榜单的排序序号重新进行排序
7.输出到业务数据库,供业务使用

算法应用场景

应用于埋堆堆App中需要提供榜单信息的场景

算法目的意图

为用户提供一个剧单,内容包括各个题材下最热的剧集,以及各个题材下,播放量提升最多的剧集,以达到帮助用户快速找剧的目的。

算法备案号

网信算备440115912842103250019号