24-05-16
因子、异象因子投资
因子:资产收益率背后的驱动力,描述的是众多资产共同暴露的系统性风险。
因子收益率:风险的溢价或者说补偿。
因子之于资产,类似于,营养之于食物。
- 资产:大米、肉类、乳制品等等;
- 因子:碳水、脂肪、蛋白质等等;
- 食物的价值体现在
- 包含哪些营养成分以及包含了多少(类比
) - 包含的营养成分对人体健康的重要性(类比
)
- 包含哪些营养成分以及包含了多少(类比
确定因子的考虑:相互独立、简约法则
异象:确定多因子模型后,构建的资产组合中存在一部分无法解释的,且显著大于零,那么该资产就是一个异象。
- 因子:可以定价,解释资产预期收益率截面上的差异
- 异象:无法解释的超额
- 异象可以被纳入某个定价模型,从而转为定价因子
idFeature:离散值特征/ID类特征 从特征到推荐
- embedding_dim 特征维数 可以参考
- dim = 8+x0.25 x是不同特征取值的个数
- hash bucket的大小
- 对于userid等规模比较大的,hash冲突比较小的特征
- 对于星座等规模比较小的,hash冲突比较大的特征
- 对于userid等规模比较大的,hash冲突比较小的特征
- 大规模稀疏特征 从特征到推荐
- 例如某个特征有10e10个独立值(string),hash bucket size设置为15e10
- tf会创建一个shape为
[1.5e11, 8]
的Variable
col0=tf.contrib.layers.sparse_column_with_hash_bucket("feature_id", hash_bucket_size=1.5e11)
cols=[tf.feature_column.embedding_column(categorical_column=col0, dimension=8)]
- 原生TF用于存储Embedding的Variable大小为[vocabulary_size, embedding_dimension],需要提前确定,
- 在大规模稀疏特征场景中,会存在
- 内存浪费。超过
0.5e11*8*4Bytes
的内存没有有效利用 - hash碰撞。尽管设置了很大的
hash_bucket_size
,但依然会出现hash碰撞,对模型的影响不得而知
- 内存浪费。超过
- 并且如果使用ODL提升模型模型效果的话,新的特征值不断加入,特征空间难以估计。
- EmbeddingVariable通过hashtable方式实现,实现特征无冲突、减少内存浪费、并且支持动态特征加入,从而支持在线学习。
参考:DML-EV大模型使用说明