实战_资讯场景中重排策略实践

作者: Nefelibatas | 来源:发表于2022-02-10 11:53 被阅读0次

实战_资讯场景中重排策略实践
实战_资讯推荐场景中多路召回实践01
实战_资讯推荐场景中多路召回实践02
[GrowingIO]Spark在GrowingIO数据无埋点全
用实战告别情绪管理的困扰（三）
各种社交场景实战应对策略，让你人前得体又不失礼貌
实战_电商场景中精排服务的实践
2019-04-04
2019-03-29
Android自定义Plugin替代重复劳动

策略机制

热门重排

热门重排的核心就是对资讯物品计算出一个热度分值，这里也是通常我们需要准备一个热度计算公式。公式的整体模式：

$W1*H1 + W2*H2 + ... + Wn*Hn$

其中:

W1+W2 + ... + Wn = 1
W为权重，H为因子

比如：资讯的热度计算： 0.2 * 点击人数 + 0.4 * 有效阅读人数 + 0.4 * (分享+评论)

代码实践

# 基于热度重排
# 曝光量，点击量，已经点击率
import pandas as pd
import numpy as np
import redis
import traceback

ds = pd.read_csv(
    "../raw/train/behaviors.tsv",
    names=['index_id', 'user_id', 'timestamp', 'hist', 'doc_id'], sep='\t')

ds = ds[['doc_id']] #  只取资讯曝光
print(ds.head())

doc_show_count = {}
doc_click_count = {}

for item in ds['doc_id'].values:
    tmp_iter = item.split()
    for tmp in tmp_iter:
        item, behavior = tmp.split('-')
        doc_click_count.setdefault(item, 0)
        doc_show_count.setdefault(item, 0)
        if behavior == '1':
            doc_click_count[item] += 1
        doc_show_count[item] += 1

item_show_click_dic = []
for doc, show in doc_show_count.items():
    click = doc_click_count.get(doc, 0)
    item_show_click_dic.append(
        {
            "doc": doc,
            "show": show,
            "click": click,
        }
    )

item_show_click = pd.DataFrame(item_show_click_dic)
print(item_show_click.describe())

# show
item_show_click = item_show_click[item_show_click['show'] > 288]
print(len(item_show_click))

# click
# 方法一，基于点击数进行倒排
#####归一化函数#####
reg = lambda x: x / np.max(x)
item_show_click['click_reg'] = item_show_click[['click']].apply(reg)
print(item_show_click.head())

item_click_count = {}
for d in item_show_click[['doc', 'click_reg']].values:
    item_click_count[d[0]] = d[1]

# 方法二，基于点击数和点击率的加权求和进行倒排
item_show_click['ctr'] = item_show_click['click'] / item_show_click['show']
print(item_show_click.head(30))

w1 = 0.3
w2 = 0.7
item_show_click['ctr_click'] = w1 * item_show_click['click_reg'] + w2 * \
                               item_show_click['ctr']
print(item_show_click.head(30))

item_ctr_click_count = {}
for d in item_show_click[['doc', 'ctr_click']].values:
    item_click_count[d[0]] = d[1]


def save_redis(items, db=1):
    redis_url = 'redis://:123456@127.0.0.1:6379/' + str(db)
    pool = redis.from_url(redis_url)
    try:
        for item in items.items():
            pool.set(item[0], item[1])
    except:
        traceback.print_exc()


save_redis(item_click_count, db=11)
save_redis(item_ctr_click_count, db=12)

类别打散

类别打散的核心就是基于资讯的类别进行错位穿插排序

基于类别+分值划分出多个有序分组，然后依次按分组取最大的分值
对于类别不足的排序结果，进行截断补其他的类别热门

比如：

排序后的结果：

[item1, cate1, 0.9], [item2,cate1, 0.8], [item3, cate1, 0.7], [item4, cate2, 0.7] , [item5, cate2, 0.6]

类别打散后：

[item1, cate1, 0.9], [item4,cate2, 0.7], [item2, cate1, 0.8], [item5, cate2, 0.6] , [item3, cate1, 0.7]

代码实践

def cate_shuffle(items):
    cate_items = {}
    cate_sort = []
# 循环，依次取类别中score最大的进行输出
    for item in items:
        cate = item['cate']
        cate_items.setdefault(cate, [])
        cate_items[cate].append(item)
        if cate not in cate_sort:
            cate_sort.append(cate)
    #打散穿插
    result = []
    for i in range(len(items)):
        for c in cate_sort:
            res = cate_items[c]
            if i > len(res) - 1:
                continue
            result.append(res[i])

    return result


if __name__ == '__main__':
    items = [
        {'item_id': 'N2031', 'cate': '01', 'score': 0.92},
        {'item_id': 'N2032', 'cate': '01', 'score': 0.71},
        {'item_id': 'N2033', 'cate': '01', 'score': 0.70},
        {'item_id': 'N2034', 'cate': '02', 'score': 0.65},
        {'item_id': 'N2035', 'cate': '02', 'score': 0.64},
        {'item_id': 'N2036', 'cate': '03', 'score': 0.63},
        {'item_id': 'N2037', 'cate': '03', 'score': 0.61},
    ]

    result = cate_shuffle(items)

    for re in result:
        print(re)

性别过滤

性别过滤的核心就是我们推荐的物料是存在性别偏向的，比如，在电商场景中对应男性用户会过滤掉一些女性化妆品，在小说推荐中女性用户会过滤热血类书籍，男性用户会过滤掉言情类书籍等等。

基于特征服务获取到用户的性别，然后获取到物料的性别偏向，两者不一致就过滤掉

比如：

排序后的结果[item1, 男, 0.9], [item2,女, 0.8], [item3, 男, 0.7], [item4, 女, 0.7] , [item5, 男, 0.6]

用户是男性，因此重排后结果为： [item1, 男, 0.9], [item3, 男, 0.7], [item5, 男, 0.6]

代码实践

def gender_filter(target_gender, items):
    items_tmp = []
    for it in items:
        if it['cate'] in target_gender:
            items_tmp.append(it)

    return items_tmp


if __name__ == '__main__':
    target_gender = ['01', '03'] # 只要类别01与03
    items = [
        {'item_id': 'N2031', 'cate': '01', 'score': 0.92},
        {'item_id': 'N2032', 'cate': '01', 'score': 0.71},
        {'item_id': 'N2033', 'cate': '01', 'score': 0.70},
        {'item_id': 'N2034', 'cate': '02', 'score': 0.65},
        {'item_id': 'N2035', 'cate': '02', 'score': 0.64},
        {'item_id': 'N2036', 'cate': '03', 'score': 0.63},
        {'item_id': 'N2037', 'cate': '03', 'score': 0.61},
    ]

    items = gender_filter(target_gender, items)
    for item in items:
        print(item)

强插

强插，主要是针对业务层面上，某些运营的物料或者新的物料进行操作的，将该物料直接强制插入排序后的队列中，也是一种物品冷启动策略。

比如：

排序后的结果 [item1, 男, 0.9], [item2,女, 0.8], [item3, 男, 0.7], [item4, 女, 0.7] , [item5, 男, 0.6]

强插一个新物料[item9,男, -1] 在第二位后

[item1, 男, 0.9], [item9,男, -1] ,[item2,女, 0.8], [item3, 男, 0.7], [item4, 女, 0.7] , [item5, 男, 0.6]

代码实践

# 强插

def forced_insertion(new_doc, items, nums):
    items_tmp = []
    max_score = items[0]['score']
    if nums == 1: # 若在第一位则强插的对象score比其他都大
        for i, n in enumerate(new_doc):
            items_tmp.append(
                {'item_id': n, 'score': max_score + (len(new_doc) - i) * 0.01})
        for it in items:
            items_tmp.append(it)
        return items_tmp
    else:
        max_score = items[nums - 2]['score']
        min_score = items[nums - 1]['score']
        # 在中间值则算出均值
        score = (max_score - min_score - 0.01) / len(new_doc)

        for i, it in enumerate(items):
            if i == nums - 1:
                for j, n in enumerate(new_doc):
                    items_tmp.append(
                        {'item_id': n, 'score': max_score - (j + 1) * score})
            items_tmp.append(it)

    return items_tmp


if __name__ == '__main__':
    new_doc = ['N2073', 'N2075']
    items = [
        {'item_id': 'N2031', 'cate': '01', 'score': 0.92},
        {'item_id': 'N2032', 'cate': '01', 'score': 0.71},
        {'item_id': 'N2033', 'cate': '01', 'score': 0.70},
        {'item_id': 'N2034', 'cate': '02', 'score': 0.65},
        {'item_id': 'N2035', 'cate': '02', 'score': 0.64},
        {'item_id': 'N2036', 'cate': '03', 'score': 0.63},
        {'item_id': 'N2037', 'cate': '03', 'score': 0.61},
    ]

    items = forced_insertion(new_doc, items, 2)
    for item in items:
        print(item)

实战_资讯场景中重排策略实践
推荐系统的重排服务重排服务(机制服务) 重排序不是必须的在排序阶段，通过把用户特征，item特征和上下文特征放...
实战_资讯推荐场景中多路召回实践01
召回服务框架任务调度平台主流的任务调度框架airflow airflow是一款开源的，分布式任务调度框架，它将...
实战_资讯推荐场景中多路召回实践02
资讯多路召回开发多路召回部署模块架构： feature_server对应架构流程特征服务中的item特征与us...
[GrowingIO]Spark在GrowingIO数据无埋点全
【一点资讯】Spark在GrowingIO数据无埋点全量采集场景下的实践 www.yidianzixun.comh...
用实战告别情绪管理的困扰（三）
看完了上两篇文章，应该对情绪管理有了比较实战的认知了，剩下的就是实践。实践是最难的，也是最漫长的事情。实践的场景...
各种社交场景实战应对策略，让你人前得体又不失礼貌
读书评：取其精华（4）《蔡康永的说话之道》今天继续大家分享《蔡康永的说话之道》的精华内容：各种场景实战应对策略 ...
实战_电商场景中精排服务的实践
精排服务框架介绍框架流程图机器学习平台数据流服务: 产生训练所需的训练样本训练平台: 模型开发和训练的统一...
2019-04-04
机器学习中的召回、融合、填充、过滤、重排。融合：决定召回策略比例并截取物品数形成初步结果集，融合器有加权融合、概...
2019-03-29
<<机器学习实战>>--策略梯度
Android自定义Plugin替代重复劳动
上篇说过要做一次自定义gradle插件的实战，本篇文章就记录下两个场景下的实践，实践内容属于入门级别的，相对...