内容理解算法研究

经过几年的扩张,无论是AI四小龙艰难的上市之路,各大互联网公司副总裁回归学术界,还是算法人员招聘的冻结,算法的热度都迅速下滑。还有就是整体经济形势恶化带来的影响,这也和算法自身能力的上限有关。在各类学习任务中,算法的性能逐渐进入瓶颈,提高一般任务效果的梯度逐渐降低。有效的进展依赖于超大规模的数据和模型参数。以一般的语义表示任务为例,完成一个超大规模的前期训练模型的成本达到几百万元,大大限制了中小企业参与的机会。

在业务应用方面,经过几年的不断建设和各类功能的输出,对应不同业务依赖方向的内容理解算法在应用和效果上已经比较成熟,带来惊喜的机会很少。在这种情况下,作为偏后台支持的角色,如何识别并不断深化内容理解算法的角色就变得非常重要。本文试图从价值的角度分析内容理解的生存状况,探讨未来发展的可能性,并对员工的应对方式做出一些不那么严谨的解释。

我们一直把内容理解算法定义为商业的灵丹妙药,可以随时随地插拔。从与内容生产者合作做创意提示,帮助运营者做质量分析、版权保护和相似搜索,帮助搜索算法提升长尾查询效率,帮助推荐算法提供标签等细粒度语义特征,根据消费者的负面反馈屏蔽同类型内容(如软色情、恶心、不喜欢的明星)。因此,我们很自然地将内容理解算法的使命定义为“提高内容流全链路的质量和效率”,其中质量包括确定性劣质的去除和高质量内容的免试用或高曝光推荐。效率是指将内容从生产到消费的时间优化到最快,包括协同运营的快速内容筛选和辅助分发算法的人与内容精准匹配。

这里需要回答的是,在以上相对完整的能力基础上,内容理解算法能提供的核心价值是什么?

首先是客户的定义。内容理解算法的客户不是运营商,不是分发算法,不是生产者,也不是消费者。而是要回归最原始的“内容”,让内容的附加值最大化。

其次,内容流通各个环节所涉及的角色都承载着内容理解算法的价值,无论是运营所引领的平台意志的实现,分发算法对内容和消费者的高效匹配,还是生产者和消费者分别从内容供给和消费两个方面对内容理解算法的诉求。

最后,内容本身是一个载体,背后是人们对现实世界的描绘。平台层面有了按需接入内容的逻辑,消费者也有了用脚投票的权利。这里的内容理解算法不应被视为任何自我倾向,根据业务诉求的多元化能力输出才是内容理解的核心价值。否则,简单搬来学术界的开源模式就能堆砌出表面的业务能力,显然无法满足业务增长诉求。

因此,我们可以形成一个价值定义:“内容理解算法的核心价值是根据服务业务在内容全生命周期的多样化诉求,提供智能化、结构化的理解能力,其衡量标准是上述能力带来的额外效率提升和成本降低。”

从这个定义来看,内容理解算法似乎是不站在主战线上的,它的价值是隐式计算的。其实不然。就像一场战争,冲锋在前的部队只有几个,承担防御和辅助任务的兵种其实是不可或缺的,这往往决定了战争的走向。历史上有很多因为后勤保障问题导致战争走向改变的例子。就像定义中的效率提升一样,其实也不是一票制的方法。因为效率的提升会增加供应商和消费者的规模,也会对内容理解算法的效率提升产生更多的需求。这种正反馈环节也是内容服务快速实现既定目标的重要途径。

第一,估值博弈

从小红书2021,11的估值来看,当时6000万DAU,人均47分钟的内容社区,被200亿美金的估值所认可,这是一个早期的内容社区经过长时间的成长所能达到的高度。考虑到一个相对创新的内容业务,两到三年内达到5000万DAU,人均5分钟,其实很难。按照对标小红书的逻辑,估值上限是30亿美元。假设内容理解算法对业务的贡献率按3%折算,内容理解的预估估值为9000万美元。按照10次的简单营销率,内容理解年营收900万美元(按照估值,

900万美元是一个很尴尬的数字,因为内容理解算法的成本比较高。从大的角度来说,内容理解算法支出分为三部分。第一部分是算法人员,由15人的支持团队计算(看起来有点多,但不足以支撑未来的预期增长,15人其实不够)。按照一个人一年的缴费成本,就是65438+。第二部分是资源消耗。按照百万内容/天的规模,各种资源(包括机器、存储、辅助软件等)的成本。)约为500万美元/年;第三部分是支持工程师、产品经理、外包贴标支持等。这部分大概是654.38+50万美元/年。可见,现阶段业务发展,内容理解算法力不从心。

按照上述口径,提高内容理解价值的核心方法包括三个方向。首先,企业价值的增加需要企业DAU和持续时间的稳定增长。第二,内容理解算法的商业贡献率提升。这里对内容理解算法的要求比较高,不仅是从内容的质量,生产者的协助,分发流量的效率,商业的整体生态,还是商业的商业化。三是降低成本。这条路的可行性很弱。相反,随着业务的增长,成本的消耗会进一步增加。我们能做的就是把成本的增长速度控制在低于业务的增长速度。

“根据业务贡献来衡量内容理解算法在业务发展初期的价值并不乐观”。

第二,价值重塑

前一个视角是闭环业务下的价值衡量,是向更大的视角开放的。内容理解算法之所以构成一个相对独立的功能单元,是因为它提供的能力是相对通用的。例如,标签识别算法不仅可以用于小红书,还可以用于Tik Tok和Aauto faster等内容业务。

所以在支持具体业务的过程中,沉淀一个通用算法输出其他类似业务的价值,是内容理解算法的另一扇门。这里面临的另一个问题是,如果是头部商家,就必须要求内容理解算法为其量身定制,而中小商家愿意为内容理解算法支付的价格是有限的。这个问题的核心解决方案是在定制头部业务能力时提供最通用的能力,通过对大量中小业务形成价值输出,实现数量级的堆叠。

另外,为了区分成熟业务和创新业务,对于成熟业务,内容理解算法对业务的轻微提升可能是非常明显的。以JD.COM平台为例,如果内容理解算法通过图片搜索或段落识别,使商业交易提升0.1%,每年也将是上亿元的价值增值。对于创新业务,内容理解算法要深入业务,从内容的全生命周期为业务提供硬核能力,帮助业务实现生产者和消费者身体感的明显提升,最终带来业务的正反馈增长。早期,Tik Tok依靠酷炫的AI特效系统实现了用户规模的快速增长。

“目前内容理解算法放大价值的有效方式是在亲自服务头部业务的过程中,沉淀泛化能力,输出尽可能多的同类型服务。为成熟业务寻找业务增长的某些增长点,创新业务寻找适合业务快速增长的硬核能力。”

作为一个沉浮六年的内容理解算法老手,我对内容理解算法的未来持谨慎乐观的态度。原因有三。第一,这一轮深度学习带来的算法改进空间变得有限;第二,互联网用户进入股票时代后,头部的内容会更加密集,从追求效率到运营的精细化和粘性维护;三是展望未来可能出现的下一代内容消费模式。

第一,算法改进空间相对有限

在过去的几年中,内容理解算法的演变可以分为三个方向。一个是从传统的手工特征到神经网络特征的升级。通过大数据和计算能力,效果明显提升,算法人员的准入门槛大大降低。第二,对内容的理解从单一模式升级为多模式&;基于图形神经网络的跨模态推理能力:再次,极大规模数据的模型学习,即基于大规模预训练模型的统一内容表示方法,催生了变形金刚家族的不断壮大。

然而,算法的性能正在逐渐接近瓶颈,在读图、情感分析、标签识别等算法任务上与人类还有一定的距离,而这种距离在短期内似乎没有明确的突破机会。相反,行业开始从监督学习走向无监督学习,试图利用海量数据来学习背后的范式,本质上是在偏离追赶人类的能力。

以变压器为例。几百亿数据的训练,一次要消耗几百个GPU,而且要经过几周的训练时间才能有明显的效果提升,这还不包括精调网络的令人沮丧的时间成本。另外,下游任务要想得到预期的效果,还需要进一步的迁移学习。从外观上看,只是为算法学习提供了一个更好的起点。

我们经历了一个合作的过程,在这个过程中,业务在等待我们变得更加理性。AI算法从来不是救世主,而是生产力更强的工具。当然,我们也不应该过于悲观。至少在过去的几年里,蓬勃发展的算法体系带来了从业人员入职门槛的极大下降。公众对AI算法的广泛理解也促成了内容理解算法相对长期的生命力和成长。

二、存量用户时代内容社区的运营模式

互联网在中国的使用,意味着各大内容商必须进入存量用户阶段。存量用户面临的困境是粗放式增长不再出现,用户群体开始细分,用户粘性变得更加困难,需要内容社区进行精细化运营。精细化运营背后的表现是对效率的需求下降,取而代之的是对用户心智和长期战术的耐心。在这种情况下,内容理解算法将成为分散在众多业务需求列表中的功能支撑点,独立出来的机会在减少。

“从算法学习的角度来说,人的创造力、玩法设计、交互属性是地面真实的天花板,所以保持此刻的工具属性相对合理。”

第三,下一代的内容消费模式

互联网时代的内容消费经历了从文字到图像,再到视频的升级。每一次内容消费升级背后的输出,都爆发为内容理解算法。那么下一代的内容消费模式是怎样的呢?

该行业目前正在押注元宇宙,facebook甚至更名为Meta。过去有几波VR/AR热潮。似乎除了一些线上的成人网站和线下的游戏设备,并没有足够的输出来颠覆我们的日常生活方式。

人类显然需要在更高的层面上感知外部环境,与他人进行无时空差异的互动,但是否由“元宇宙”承载,则不得而知。如果以元宇宙为载体,那么虚拟世界中超大规模内容消费下的情感识别、触感生成、自然交互、生态健康管理和负载减轻,将是内容理解算法可以尝试征服和深化的全新地带,也将承担更为核心的角色。

“下一代内容理解消费模式有机会成为内容理解的下一个主战场,但目前形势并不明朗,需要保持耐心思考和观望”。

第四,其他可能性

抛开头部综合AI厂商如百度、腾讯、阿里巴巴、华为等企业作为内容理解多样性需求输出的第一极,还有内容理解算法作为平台能力输出的第二极,比较著名的有AI四小龙(商汤、旷视、易图、从云),以及深度融合民生各领域的工业AI能力输出。

医疗AI解决了因医疗资源不足而无法满足就医需求,人工问诊时间长等问题。一个典型的案例是冠状病毒肺炎-Moonshot众包协议,该协议由500多名国际科学家参与,旨在加速冠状病毒肺炎-19抗病毒药物的研发。

教育AI解决了优质教育资源缺乏和师生信息不对称导致的分配不公。虽然国家在力推教育双减新政策,但教育作为一项基本的个人权利,应该得到更好的满足。知名企业有松鼠AI、猿辅导等。

制造业AI解决了设备、数量、功能增加,调度配送困难,需求侧个性化需求等问题。通过使用AI、自动化、IOT、边缘计算、云、5G等手段,充分利用生产车间的海量价值数据,将人们从简单重复的劳动中解放出来,从事更高层次的任务,帮助提高产量的同时降低不良率。一些知名企业是创新和创新的工业人工智能在香港上市。

除此之外,还有各种一直在智能驾驶、智慧城市、芯片AI等产业领域努力的公司。他们正在充分发挥大数据和AI算法的能力,为各大行业带来无尽的创新能力。

回到内容理解算法现有的生存环境,还是有一些潜力可以挖掘的。在下一代内容消费到来之前,我们可以做得更好,与上下游形成良性联动,在当前的舞台上展现更好的风采。

一.产品

内容理解算法这个产品是不是刚需,有点争议。有人说算法输出速度比较慢,让昂贵的产品角色参与构造本身会很浪费。个人认为内容理解算法对应的产品角色是必须具备的,因为庞大的业务体系背后,如果没有自上而下的面向业务需求的内容理解算法体系的设计和建设,是非常容易不习惯业务赋能的。

产品需要考虑的核心问题是如何衡量长期和短期的投入。算法是一项精细的工作,对结果的期望是不确定的。因此,需要管理业务期望,并及时与业务需求进行交互。为了保证算法在业务中的最终使用效果,前期可以通过简化半成品算法的版本或产品方案进行快速试错,有助于业务决策,为算法的长期迭代赢得空间。此外,为算法的长期迭代设计有效的样本数据回流机制,通过配置输出尽可能多的试错法给业务,实时监控业务投入使用后的效果,都是产品需要思考的工作。

二、操作

运营应该是内容理解算法中参与最频繁的一方,内容理解算法的评估标准和业务适配需要运营来构建和监控。内容理解算法是内容供给生态和消费生态运营的智能助手,从内容结构化标签的角度提供和运营各种分析和使用方法,如内容审核、内容圈子选择、内容人群定投等。

处理运营对内容理解算法提出了很高的要求,如何快速衡量需求的合理性和可行性非常关键。有时内容理解算法过度投入,导致上线效果不佳,影响业务发展。有时对算法的实现效果缺乏信心,或者在生产使用中缺乏杠杆,导致需求被拒绝,从而导致业务失去宝贵的试错机会。因此,内容理解算法要很好地把握内容操作的环节,能够和操作一起定义全链路算法能力,从应用的角度促进算法需求的合理有序发展。

第三,生产者

制作人对平台很重要,巧妇难为无米之炊。运营和分发算法再牛逼,没有优质的内容生产源,业务也不可能持续增长。正常情况下,2000个优质制作人加上几万个普通制作人,可以支撑几千万个DAU的生意。如何服务好这些生产者,对平台来说非常重要。

目前,内容理解算法与制作者的交互方式主要包括几个方面。一种是内容制作过程中对制作方的内容元素的智能推荐,比如题目、片头、配乐推荐等。二是改善内容展示效果,如滤镜、贴纸、美颜、画质增强等。三是从质量层面对生产者进行引导和管控,包括从商业角度发布给生产者的内容不被平台采纳的原因、高热趋势内容的消费清单、内容的版权保护等。

从制作方的角度来说,从平台获取尽可能多的流量或商业价值才是根本追求,所以往往会有不断的探索平台规则来获取利益,比如放出大量的擦边球或危言耸听的内容。内容理解算法需要在内容供给规模越来越大的情况下,帮助平台维持健康的生态和有效的流量分配,同时给予生产者尽可能多的指导。这种互相厮杀的关系也给内容理解算法带来了不小的挑战和生存空间。

第四,分配算法和消费者

把分发算法和消费者放在一起的核心逻辑是,内容理解算法在大多数情况下需要通过分发算法和消费者打交道。从消费者的角度来看,高活跃用户代表了主流心智,如何服务好这个群体关系到商家的生死存亡。中低活跃用户是平台的增量,不断强化这些用户的平台粘性是重点任务(会有一部分用户逃离这里,为了维持平台的心智,这部分牺牲是可以接受的)。分发算法承担了负载减轻后,根据用户长期和短期兴趣推荐海量内容的使命。分发算法需要坚持平台的意志,用于内容流量分配来影响消费者的身感和心智,给平台带来无穷的活力。

在早期以编辑为主的内容分发模式中,消费者是被教育的对象,他们一天能看到的新鲜内容很少,导致消费者的浏览深度和时长有限。在个性化推荐模式下,用户的兴趣被大大放大,由于相关内容和新鲜内容的快速推送,消费者会感受到强烈的沉浸式消费感。然而,内容的多样性、消费者感知的持续维护和兴趣的扩大变得非常重要,这对分发算法的准确性提出了很高的要求。提供分发算法的细粒度识别能力,是内容理解算法施展才华的机会。内容是否有很好的分发潜力来增加分发流量?内容适合什么受众?用户无序浏览背后的核心利益是什么?软色情/如何准确识别部分人不喜欢的内容(蛇虫宠物)进行分发监管等问题是分发算法难以触及的。这些命题是内容理解算法可以深入研究并影响内容分发和消费的重要方面。

特定场景除外(如互动玩法、个性化封面图等。),内容理解算法要遵守其在内容生命周期中的参与广度。当涉及到内容的分发和消费时,内容理解算法应该将自己定义为分发算法不可或缺的辅助工具,而不是试图取代它。从内容理解算法的角度来看,分发算法可以约等于消费者。以餐厅运营为例,配送算法是chef,根据消费者的口味、食材、菜谱提供个性化的餐饮服务。内容理解算法可以控制食材质量,开发新的菜谱,必要时提供半成品菜品。与消费者的交互由分发算法处理。毕竟术业有专攻,内容理解算法可以在内容的深度理解和消费者洞察上做一个垂直的深度,提供更多的可能性,包括生态、多样性、内容保存等等。

内容理解算法和分发算法的理想状态是正和博弈,零和博弈对双方都没有意义。所以这里对内容理解算法的额外要求是在内容消费场景下建立相对客观的评价体系,通过对算法的标准化评价加速上线进程,通过不断的快速试错为分发算法提供更多的枪支弹药。

动词 (verb的缩写)工程&;数据分析

一个英雄有三个帮派,一群小伙伴站在内容理解算法后面。算法生产的大规模工程基础设施和算法洞察的数据分析能力,可以帮助内容理解算法更好的发展。在内容爆炸式增长的今天,一个高效的算法工程系统非常关键,甚至是拉开不同公司差距的最重要手段之一。有一个很明显的例子。在业界举办的各类算法大赛中,只要大型互联网公司参加,基本都会称霸榜单,这背后是模型训练效率的强大先发优势。拥有100级GPU并发培养能力的大学少之又少。另外,以通用的向量检索函数为例,需要大量的工程优化方法,才能在有限的计算能力和内存消耗下,稳定运行数百亿的向量索引能力,而这个函数对于算法的高效使用非常重要。

数据分析对于内容理解算法有许多应用。根据消费的统计行为,构建面向内容兴趣的用户画像,提供内容消费的风向和趋势方向,分层耦合内容标签的合理隶属关系,算法上线前的有效性分析,算法上线后的持续监控和异常报警。

内容理解算法需要做的是针对业务领域进行一个完整的架构设计,从算法效率的角度,包括算法服务效率、算法洞察视角等方面的联动工程&;数据分析提供了强大的生产力,通过规模和系统厚度构建了足够的技术门槛。

2021这一年,对于中国互联网乃至中国社会来说,都是不一样的一年。随着全球经济不景气,国与国之间人为壁垒的构筑,刚刚遭遇国内人口增长停滞,国家对互联网平台的强力控制,互联网用户渗透高峰。

内容理解算法背后的AI算法体系也受到了一些波折,但从整体情况来看,AI算法体系和产业化仍在向前发展。在基础理论R&D系统中,发表的论文、举行的会议、举行的竞赛和参与者的数量都有所增加。这两年的遇冷主要是受市场环境的影响,AI占总投资的比例还在上升。国内方面,全球经济的技术封锁进一步坚定了中国自主创新的决心和信心。中国的“十四五”规划已经明确提出了大数据、人工智能、VR/AR的产业发展规划,AI产业仍有很强的潜力值得挖掘。

作为一个依赖于业务的内容理解算法,需要有清晰的自我认知和定位。我们的核心价值观是什么?如何有效定义和量化?作为服务于业务的众多角色中的一员,如何做好与其他角色的良性互动?以上问题背后的答案代表了内容理解算法的核心作用。现在算法领域有一股投机风,流行什么就做什么,比如宣称不需要数据标注的无监督学习,宣称可以有效对标大量标注样本的小样本学习,宣称单个算法模型可以遍布全球的多模态预训练学习。如果从问题抽象简化的角度去研究基础理论体系和算法学习范式是没有问题的,但是如果商科学生也把这样的概念挂在嘴边就有问题了。没有业务场景的核心需求就谈技术创造新业务,是对客户的一种傲慢,属于典型的机制。

作为深度融合业务的内容理解算法,应该基于业务场景和算法的可行性来探索业务赋能的核心技术。即使需要很长时间去打磨能够产生正商业价值的算法技术,也要敢于投入建设,在算法研发的过程中不断思考商业的更多可能性,逐步将商业的不确定性转化为技术的相对不确定性。对于长期不能为商业做出贡献的算法,要坚决放弃深入研究。当然作为技术跟进是没问题的。

从目前的情况来看,内容理解算法的发展确实遇到了一些困难,但我们可以对未来保持谨慎乐观,期待下一代内容消费模式的到来。同时要尽可能提炼业务场景进行能力输出和强化,放大现有股票的商业价值,通过算法本身的不断构建,为未来可能的时刻做好技术储备。