澳门乐发开户

2019-05-01 10:34栏目：新闻

主讲人 | 路香菊爱奇艺科学家

张康编辑整理

量子位编辑 | 公众号 QbitAI

近日，爱奇艺技术沙龙“多模态视频人物识别的关键技术及应用”成功举办，爱奇艺科学家路香菊出席并作出精彩分享。

路香菊博士，爱奇艺科学家，PersonAI团队负责人，专注人物识别及视频分析，创建百万人物库及两万卡通库。组织创办“爱奇艺多模态视频人物识别赛”，开放全球首个影视视频人物数库iQIYI-VID。

以下为路香菊分享实录：

今天给大家分享的主题是“爱奇艺多模态人物识别及其应用”，主要有三个方面：

智能创作：优质信息流内容是比较宝贵的，给大家分享AI在创作里的能力；

多模态AI竞赛：爱奇艺多模态视频人物识别AI竞赛，以及iQIYI-VID人物视频库。

人物识别

人脸识别可能大家都不陌生，但人物识别并不等同于人脸识别。人物识别除了通过人脸识别，也可以采用其他技术，比如说人体（reID）、声纹等。当然爱奇艺主要是视频资源，针对明星会采用人脸识别，针对动漫等卡通剧，会采用虚拟人物识别。

这是爱奇艺人物识别简单的技术总蓝图，通过这张图可以比较形象的认识人物识别，分为FaceAI，BodyAI，AudioAI。

FaceAI是广义的人脸识别，但是除了人脸，还包含更多属性，如五官定位、是否戴眼镜、表情，以及人脸质量、姿态、颜值、种族等等之类的，是广义的人脸信息。

BodyAI除了我刚才说的reID（人的姿态、身体特征），还可以通过服饰、职业、体型等属性来确定一个人的身份。

AudioAI主要是指声纹,比如音乐类型,声音类型,音频分类等工作，是指比较立体的AI信息。

爱奇艺人脸识别模型

爱奇艺的人脸识别模型，除了人脸的身份之外，还有其属性信息，目前线上跑的模型包含12个属性，比工业界的其他公司模型要更全面。爱奇艺人脸识别与属性模型十五合一，其每个属性的指标都在行业内领先，一个模型可以同时识别身份属性，且各项属性的识别精度也比较高。

爱奇艺的人物库，包含120万名人，2万虚拟形象（卡通人物）。目前人脸识别精度最高的是ArcFace，可以达到99.8的精度。爱奇艺和ArcFace做过比较，是领先于它的。

爱奇艺的模型之所以达到这么高的精度，主要是因为我们有一个大规模的明星数据库，这个数据库的噪声小于0.02。

此外像分布式训练，还有量化、剪枝、蒸馏，还有CPU版本的OpenVINO优化，也都是我们在这个模型的尺寸大小上做的一些优化的工作，这个模型一天可以分析2000以上的长视频，一个月可以分析几十万的视频总量。这对处理海量视频是一个非常重要的一个指标。

大家都比较熟悉这种表情包，爱奇艺这项技术实现了业内首个表情和文案的自动生成。一个长视频平均能提取出来100多个明星表情包，文案也是自动生成的。除了明星，我们也在做卡通人物相关的实验，可以做到40多个表情包。

目前生成对抗网络的应用较多，比如GAN生成的人脸非常逼真，其实生成的人脸虽然在某些样本上取得非常逼真的效果，但目前在标题自动生成、画面自动生成领域都还没有十分成熟。举例来说，生成卡通形象，有些生成的很好，但有时鼻子就跑到脑袋上了。

爱奇艺表情文案生成采用了配准的方式。对于明星表情包，我们首先检测出他的Action Unit，然后将AU的特征向量与GIF库中的特征向量配准，再根据颜值、性别等信息，把相应GIF上的文案放到明星的表情包上。配准的效果要好很多，不会出现特别怪异的文字或画面。