首页 企业星红桉数据正文

李馥岑:传媒大数据在视频方面的应用探讨

 由中国有线、中广传播、南方传媒、东方有线、BIRTV组委会、DVB+OTT融合创新论坛主办,由中广互联、东方有线承办的第六届广电行业趋势年会暨第二届DVB+OTT融合创新论坛年会于12月12日在上海大华虹桥假日酒店召开。本届年会主题为“大电视 大数据 大生态下广电发展与转型之路”。

 在第六届广电行业趋势年会专题论坛上,上海星红桉数据科技有限公司总经理李馥岑做了题为《传媒大数据在视频方面的应用探讨》的演讲。李馥岑指出,原先有线运营商业务构成比较简单,随着有线运营商逐渐推进全业务运营商,有线业务体系逐渐复杂,但是有线运营商现有业务流程梳理难度大,牵涉多部门合作,难度大。

 以下为演讲实录:

 感谢大会给这样一个机会。第二个要感谢贾总,给我们营造了一个不磕睡的环境。第二个我要感谢王总,因为王总给我们铺设了很多的算法的东西,待会儿我就一带而过不多介绍了。

 今天我的题目是传媒大数据视频方面的应用探讨。首先我不是来自于技术的行业,在技术的上面我不做过多地探讨。从应用方面我想谈谈我们的一点心得。

 首先从广电来讲,我们有包含数据量大,而且数据的非结构化特征和零散的特征,无规律的情况。如果是摇控器产生的自由数据,用我们的结构化数据做结算就可以了。比如说常规的收视率的指标体系等等,但是有海量的视频数据造成非结构化的数据。目前我们也有很多的数据加入进来,比如说上网,在东方有线数据业务大于传统业务的模式,我们在数据业务上样抓取出很多的原始数据量。

 第二个我们在发展当中不尝试不同的业务。特别是近一年来OTT和DVB个人业务形式对我们的冲击比较大,所以业务的幅度比较大,不利于对后面的连续性的监测。包括原始数据的采集阶段。

 第三个业务流程难度比较大。我们要在树立结构的时候牵涉到混合的合作,所以在体系的流程上也有一定的难度。从我们的硬件和总体的程度来看,我们的成本都有了大幅度的降低和提升。打个比方我们的存储成本在30年内下降近20万倍,对计算成本来讲应该是48年下降20亿倍。带宽成本13年下降了14倍,这对我们拥抱大数据做了基础的链入。虽然存储成本的下降,计算成本的下降,从原来的GB到TB到兆B的显示,所以大客户显示三个V数据。这个大家听得比较多。最近我们做了大数据的平台,我们觉得可以任为三个层面,一个是平台的能力,数据的能力,业务集合的能力。平台的能力主要是以各种算法来部署,它有集成的自动化的调任务管理。大数据的数据能力层实际上已经和我们业务能力层非常相关联,很多在数据能够层上面有表现。

 数据是未来企业的重要资源,从现在来看,广电结合很多的运营商在数据采集和基本建数据仓库这个环节上做了很多有利的尝试。我们认为传统的经营模式卖产品和服务,在广电的引导下是从互相付费或者是挖掘用户的出身价值赚钱利润。数据从未来来讲也给我们展示了可能性。大数据在广电我们的理解有几个方面,第一个是通过数据应用构建双方付费的流程。包括广告以及业务的精准投放。第一个我们这块来讲做了数据存储,广电网络运营商会有回看、以及开机BOSS的对接,我们有自己的有充分用户,所以我们互联网的用户的属性都可以查下来。同时可以把广告的桥段的等都可以拿出来。我们从整个的分析来看,我们可以定义摘取成桥段,这样我们可以为以后的定植化模式和预测影视剧的风险模型做基础。同时我们可以并入市面上更多的初样性做演示。

 从广电应用的大数据来看,一个最直接的应用就是报表系统和用户分析。主要是终端采集的数据汇集和业务生成的数据来做。形成我们传统的类似于开机率等等这样的指标以及对我们的直播频道,点播付费频道,新媒体广告做这种业务支撑,以及观众的流入流出。

 刚才谈到的数据大家耳熟能详。我们面对这种海量数据和没有人员属性的推机算法的时候是如何做大数据客户分类。第一个是要看采集源头,我们用在线全量的数据,这样构建出核心模型的云图。但是我们深入到每个个体的时候就发现明显比较差异,这个是我们公司的两个同事做研发人员的案例,A和B他们都是35和40岁,这是传统的电视对人群的分类,并且大家的收入和学历模型都是一样的。我们可以看到我们要是深入调查这样的人,我们A是强调分析理论,他喜欢宅,他购物的倾向是这样的。另外一个是强调技术应用,喜欢外出,音乐、北方人。他购物的取向是另外一个差别。这样我就发现了传统对于人员的区分,特别是收视人员,14—25岁年龄段的区分,收入的区分,对于他们的收入取向和购买力差别非常大。我们能不能创造出一个更贴近于收视行为和购买力的区分。新疆这边来讲,目前15万不到的双向机顶盒,具体也就10个G的总量,我们可以抓取用户的上网数量,我们把6万户有效的数据抓取下来,这是我们电视数据量的10倍,每一天的总数量大概是在300个G左右的峰值。我们抓取以后做模型训练,刚才这个算法王总也讲过。我们第一行为是机器自打的,包括它的主题总结出这种关键词,第二和第三的人工标注发现了这样的主题,并且做了分类。同时我们让这种检索分类不同,我们对一个人员按时段勾画出他的生态系统。我们把用户的行为分布,变成一个标签,但是它并不是一个完全的以年龄和收入群体为主的。但是我们还在探索在广电行业里面能不能做成公用的三级标签体系。最后一个标签体系我们设计为广告投放等更窄的分类,可以用概率的办法来去做一定的应设。整个来讲我们认为人类的行为是可以预测的。因为人类的行为共同遵循了这个规律分布,每个人都有一个更大的资源核心。

 讲完人员的标签,时间有限,本来还想讲一下对于视频和文本我们另外的一个。我们是做视频的网络,我们要视频的货币化和最大价值,我们视频也可以做一个强有力的分类,所以我们的应用场景可以来讲,想贴合主题,我们抓取的这些用户行为数据的话,是想让直播跟好看,无论是IPTV也好,还是OTT也好,我们做过分析,70%的市场的总时段还是在看直播。包括我们对上海IPTV200万的用户做过分析,30%的收视时段在看直播。25%的看VOD点播。VOD不是大家爱吃的家常菜,关注对于电视的要求还是在时间性,我们电视台拥有最大版权的时间性内容还是非常有利润力的。这样来讲我们发现了一个问题,我们现在的直播并不是很好看,尤其是1—80频道翻一遍的话,有很多节目我们就已经过滤掉,或者很多节目想看没有看到。我们观察同一个家庭的同一个时段,在同一时段这个家庭可能也就八个频道选择,他的选择数不会很多,这是历史的数据告诉我们这个情况。这样来讲至少数据在我们实时计算的时候,电子节目单也就是常给观众的节目预告,我拿着摇控器换台的时候,是不是能计算出我通常选择的八个频道,让我切换更有利。通过智能电视台的匹配搜索,让观众更有效地看直播频道,这样提高我们的融合度。

 数据资产我们认为广电的数据相对来讲还具有很大的可留存性。我们广电这个行业的数据不像 其他的金融系统,每个银行的系统数据是私密的,他们不愿意分享出来。第二个通过这么多年的运转,大家对数据本身的货币化和市场化是有概率的。是通过这个打造出多种的APP应用,包括多屏数据的挖掘,多屏节目评估体系,包括影响力体系。植入广告指数,智能导视推荐。作为落地可以作为频道推荐指数。

 很多地方我们是做对等落地,对进刀排序和落地费是有关系的。通过对收视总份额来讲,也可以打造新的频道落地费的指数出台。包括影视剧风险评估,刚才王总也说过,数据可以拆分成桥段和素材化和更有效地做样板评估,可以把全部的数据收集起来,可以做大致的术收视趋向。通过改变客户的体验扩大客户群,通过降低单位成本,以及 通过客户运营增加收入,和通过数据运营增加收入,扩大客户群,作为数据模型的长期修订和实用。

 最后简单介绍一下我们公司。我们星红桉公司是由国内资深的投资专家以及数字电视技术专家组成,旨在为 传媒行业在新媒体时代创造最大的价值。

分享:
延伸阅读
    数博故事
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    大数据概念_大数据分析_大数据应用_大数据百科专题
    企业
    更多