埋堆堆算法备案信息

埋堆堆算法备案信息

1、检索过滤类

算法名称：埋堆堆相似视频检索算法

算法基本原理	利用视频的标题及标签等文本信息，形成可表征视频内容的词向量，通过计算视频间词向量的余弦相似度，来查找相似的视频。算法接收用户正在浏览的视频标题和视频ID,可以翰出检索到的相似视频的ID
算法运行机制	1.收集全量视频的标题、标签信息，录入索引 2.定期增量更新变化的视频信息 3.通过视频ID,在索引中查找到视频的标题、标签信息，并实时计算其 TF-IDF值，形成词向量 4.计算待查询视频与索引库中其他视频的余弦相似度，按照余弦相似度大小逆序排 5.输出排序后的视频ID给到业务端
算法应用场景	埋堆堆App短视频连续播放页内容输出
算法目的意图	为用户提供与正在观看视频内容相似的内容
算法备案号	网信算备440115912842104250015号

算法名称：埋堆堆已访问内容过滤算法

算法基本原理	利用布隆过滤器的特点，对用户访问内容的信息进行编码，转换成布隆过滤器中字节数组对应位置的值。通过查询布隆过滤器对应位置的值来判断，用户是否在对应的时间访问了对应的内容。算法可以将用户已经浏览过的内容识别出来并且剔除出将要浏览的列表，保证用户不会重复浏览视频。算法的输入数据为将要呈现给用户浏览的内容，算法的输出数据为用户即将浏览的视频ID,其中已经浏览过的视频已经被剔除。
算法运行机制	1.通过实时分析用户行为日志，将用户访问内容的行为编码到布隆过滤器中 2.通过检查布隆过滤器中对应位置的值，来判断指定用户是否在指定时间访问了指定内容。
算法应用场景	应用于埋堆堆App过滤用户已访问内容的场景
算法目的意图	通过布隆过滤器这种高效的工具，实时过滤用户已访问内容，为用户呈现更多未访问过的内容，提高用户体验。
算法备案号	网信算备440115912842105250011号

2、排序精选类

算法名称：埋堆堆热播榜单内容排序算法

算法基本原理	算法通过统计剧集的历史播放数据，结合剧集在相应题材内的播放排名、相邻两天播放量提升比例等信息，确保热播剧集能够得到曝光，同时也保障了榜单的新颖性。
算法运行机制	1.统计当天播放量最多的100部剧集 2.统计每个题材下，当天播放量最多的100部剧集 3.统计对比前一天，播放量提升比例最大的100部剧集 4.统计每个题材下，对比前一天，播放量提升比例最大的100部剧集 5.排除已下线的内容 6.按照以上各个榜单的排序序号重新进行排序 7.输出到业务数据库，供业务使用
算法应用场景	应用于埋堆堆App中需要提供榜单信息的场景
算法目的意图	为用户提供一个剧单，内容包括各个题材下最热的剧集，以及各个题材下，播放量提升最多的剧集，以达到帮助用户快速找剧的目的。
算法备案号	网信算备440115912842103250019号