今日头条算法价值观研究:场景、内容、用户偏好与平台优先级解析
昨天,相关部门要求将包括在内的四个新闻和信息应用程序从货架上删除。自推出以来,由于其算法分布的内容推动模型,它引起了各种争议。该算法的操作机制是什么?它反映了什么值?在这方面,郑州大学新闻学与传播学院的王齐安分析了77位用户的8,000多个新闻推出,并使用了内容分析方法来检查自动选择和测量当今算法的目标价值的标准。文章指出,算法的价值概念主要包括四个元素:方案,内容,用户偏好和平台优先级。这些标准嵌入了代码编写和设计中。
1。对起源的研究
中国互联网信息中心(CNNIC)在第38次报告中指出,基于用户兴趣的“算法分布”逐渐成为在线新闻的主要分销方法。随着算法渗透到用户的媒体消费加深随着算法分销模型的开拓者的聚合新闻客户引起了行业和学术界的关注。截至2016年10月底,累积了6亿个激活的用户和1.4亿活跃用户,每个用户平均每天使用它76分钟。
说,它“没有编辑人员,没有内容,没有职位或价值观,其操作核心是由代码构建的算法。”由算法驱动的个性化信息分布意味着这种逻辑,“您是谁”确定“建议的内容”,并且决策过程在“黑匣子”中进行。用户的个人信息和数据成为输入信号,这些信号被连续收集,存储,分析和影响后续的信息消耗。
新闻价值的概念是指新闻主题选择和测量新闻价值对象的标准。 “编辑分布”模型,新闻价值概念主要反映在新闻从业者的实践中(例如新闻筛查,分类,布局设计)或新闻机构的内部规范;尽管“算法分布”模型,但新闻价值概念嵌入了代码的设计和写作中。传统的守门人(例如记者和编辑)遵守筛查信息的专业规范和新闻伦理,并不限制算法工程师或程序员,而他们所做的工作对新闻生产,分发和消费产生了深远的影响。基于此,本文提出了算法价值概念的概念,并将其定义为“算法使用的标准,用于自动选择和测量新闻值的对象,而新闻值通常嵌入了代码编写和设计中”。本文将作为研究对象,试图揭示算法操作的奥秘,以便更好地掌握从“编辑器分布”到“算法分布”引起的问题,并为现有研究提供新的视野和新路径。
2。文学评论
在讨论算法分布之前,我们需要澄清:什么是算法?学者给出了以下定义:“算法是对解决问题的一系列指令输入。”从广义上讲,算法是一个编码程序,可通过特定操作将输入数据转换为输出结果。一些学者已经生动了隐喻:如果我们将数据与成分进行比较,那么算法就是食谱。只有按照食谱和根据要求进行过滤和匹配成分设定的步骤和说明,我们才能用特定的口味制作菜肴。从这个角度来看,该算法在垃圾食品还是具有均衡营养的菜肴中起着重要作用。
在大数据时代,巨大的数据为算法带来了巨大的力量。英国文化研究专家斯科特·拉什(Scott Rush)()强调:“在一个无处不在的媒体和代码的社会中,算法中越来越有力量。”受到这一点的启发,David Beal()提出了“算法的力量”(ITHM)的概念,认为它在两个方面反映了:首先,它在于算法的功能,包括分类,过滤,搜索,搜索,优先,优先级,建议和判断;其次,算法本身具有文化内涵,即基于算法的决定通常被认为是理性,中立,高效和值得信赖的。 )一些学者还对此提出了不同的看法,认为算法本身没有社会权力,但是算法工会(ONS)正在发挥作用。在算法的操作过程中,它将与“规则,人,过程,关系”等相互作用,因此应对算法()的上下文性质进行特殊考虑。人与非人类因素之间的交织和相互作用是“演员网络理论”的核心思想。江港学者和鲁曼使用了这一理论,并指出,算法,专业新闻机构和用户等参与者共同编织通信网络。
无论是算法本身还是算法联盟,它都会对新闻业产生深远的影响。 ()检查了算法操作机制。通过分析他公开发表的专利,新闻稿,博客等的内容,总结了九种算法价值元素:朋友关系,用户的公共利益,用户先前的参与,用户的微妙表达偏好,发布时间,平台优先级,页面关系,页面关系,用户的负面表达以及内容本身的质量。这些要素与编辑分布主要依赖的新闻价值要素之间存在显着差异,并且对这些差异及其影响的讨论相对缺乏国内学术界的影响。
目前,关于国内学术界算法分布的文献主要是定性研究,少量的定量研究主要基于个人观察,并且很容易受到主观因素的影响。为了弥补定量研究的缺点,本文使用内容分析来检查当今代码写作和设计中嵌入的算法值。具体而言,本文努力探索的问题是:
RQ1:的算法使用哪些标准来自动选择新闻值对象的选择和测量?包括哪些元素?
RQ2:算法分布会导致信息缩小吗?那么,如何缩小?
3。研究与设计
(1)分析图图雅的公共资料的内容
作者首先收集了公众演讲,传统媒体访谈,期刊文章以及创始人的官方促销视频。经过分析后,作者发现算法的分布模型主要在一篇文章和两个公开演讲中详细解释。
In the " ?", Zhang the of : "When a user binds to Weibo to log in, the will a DNA map for the user. This map is to a model, which is based on the data such as tags, , , /, , etc. on the user's SNS , as well as the user's phone, ,使用时间和其他数据。”
In 2015, Zhang a at the Geek Park , out that uses the data about users to : ( , stays, , , ), ( GPS , it is in a Wifi or a 3G , it is a , etc.) and (such as Weibo's -up ,微博帖子历史上)。
张在2016年11月在第三世界互联网会议上说,个性化建议中人工智能的三个关键要点是个性化,概括和数据积累。其中,概括是指向其他具有共同特征的人推广建议。
(ii)用户新闻推送内容的分析
尽管声称它没有价值,但在用户手机的通知栏中出现的每个主动新闻推动都是以某些算法值指导的产品。因此,除了对的公共资料进行内容分析外,作者还试图首先检查算法推荐的信息。
作者在两堂课上召集了90个大学的学生,以进行为期三周的新闻推荐记录。 need to use their to log in to the and the : the news title, time , and of the news daily from April 10 to 30, 2017. At the same time, need to such as age, , type (QQ, Weibo, ), phone model, tags, etc. The why were to was the was able to the group统一,有助于减少录制过程中的错误。此外,该组的年龄相同,并且具有一些共同的特征。如果他们的新闻推动存在重大差异,它可以更好地反映当今新闻建议的个性化。
4。数据结果和分析
验证后,新闻推送记录的13名参与者缺少项目和事实错误,并被排除在分析之外。最后,作者分析了77名参与者,包括12名男孩和65名女孩,分析了8,637个新闻。在这些新闻中,有些人被推到多个人身上,而另一些人只被推到一个人,覆盖率不同(单个新闻的频率除以总人数)。删除重复项后,总共获得了1,894个新闻。如图1所示,将888个新闻推向了个人,今天的头条新闻推动是高度个性化的。这些新闻涵盖了时事,国际,军事,社会,娱乐,生活服务,技术,台湾,金融,体育,游戏和其他类型。此外,推送列表中还出现了一些非新信息,并且将在以下文本中进行特定的分析。
图1今天的头条新闻推广率
(1)算法的价值概念的四个要素
基于内容分析,作者总结了算法值的四个元素:方案,内容,用户偏好和平台优先级。
1。场景
移动通信的本质是基于方案的服务,即对场景(情况)和信息(服务)适应的感知。在本文中,场景因素主要体现在当地新闻的高覆盖率中。如表1所示,本地新闻占新闻的一半以上,覆盖率超过50%。新闻“卢阳的前秘书被指控接受1.48亿元”被推向52名参与者,其承保率最高。
接近性是新闻价值的五个要素之一,诸如LBS(地理位置上的服务)之类的技术和物联网为更准确的信息适应提供了技术支持。今天的推出了有关郑州大学的九个新闻,其中包括“朝州大学奥运会开幕式的盛大景观”,“郑州大学和船签署了一项双支持协议”,以及在 的 ''享受了48.05%,42.86%和42.86%和32.86%的人。此外,有42位参与者收到了在晚上发表的“夜间小吃”新闻,这是当天的亮点。这也是基于场景因素(即用户的工作和休息习惯)的算法分布。
2。内容
尽管声称它没有价值,但本文的研究发现,具有重要性,冲突和受欢迎程度的内容更容易通过算法筛选过程并输入用户的视野。
媒体人吴成冈曾经介绍了新闻客户的推动规则:“当新闻足够重要时,可以从不同角度推动多行以形成连续的关注。”重要性是新闻推动的准则之一。在三周期间,参与者收到最多的新闻是军事新闻(28.63%)。作者将所有军事新闻冠军进口到“ CI频率统计工具”中,出口结果表明,“朝鲜”一词最常出现。在记录期间,朝鲜核问题和THAAD问题是国际社会关注的热门话题。今天的继续推动各方的回应和事件的发展。
参与者收到了社交新闻(27.67%),其次是时事新闻(13.59%)。作者分别计算了这两种新闻标题的频率。如图2和图3所示,有关凶杀,强奸和汽车事故的社会新闻以及有关官员和腐败堕落的时事新闻,更可能是算法推荐的。这些消息是高度冲突的,包括人们之间的冲突和官员被解雇之前和之后形成的对比,这很容易引起人们的注意。
图2社交新闻推送单词频率的统计数据
图3时事务新闻推送单词统计
娱乐新闻(10.76%)排名第四,其余新闻类型占10%。如表1所示,以超过50%的参与者的身份将“ Bai Baihe欺骗”事件推动了一次。在为期三周的时间里,每个参与者平均收到了5个新闻报道,最高的人获得了12个相关的推球。可以看出,流行新闻还将获得当今头条新闻的优先建议。这一发现与詹姆斯·韦伯斯特(James )的研究结果一致,即搜索引擎,社交网络,协作过滤系统等。推荐信息时倾向于使用“ ”()作为消费指南。
表1新闻推销,覆盖率超过50%
3。用户首选项
口号“您关心的是”表明,注意用户的喜好。受尼尔·瑟曼(Neil )的研究的启发,本文将用户的偏好分为两种类型:第一个是用户主动表达的(),包括喜欢,评论,收藏,关注者,前向,搜索和块。第二种类型是指用户表达的微妙偏好(),它主要是指媒体组织通过收集和分析用户数据而得出的偏好。这些数据包括用户注册信息,社交帐户,GPS位置,IP地址,所使用的手机模型等。分析结果表明,向每个男孩推出了18.38个体育新闻,并向女孩推了1.53。可以看出,诸如性别之类的人口特征也用于推测用户偏好。
值得指出的是,将在2018年5月在欧盟正式实施的《通用数据保护法规》(GDPR)的第22条规定:“数据主体应具有以下权利,也就是说,不受基于自动处理的决策的限制(包括肖像(包括肖像)(包括法律后果)。本文认为,的肖像严重影响了用户的信息消耗。 GDPR法规的第4条清楚地定义了“肖像”():“是指通过自动化处理个人数据的任何活动意味着评估个人的特定方面,或特定分析或预测个人的特定方面,包括工作表现,工作,经济状况,经济状态,位置,健康状况,个人偏好,可信赖的行为或参与者的范围。 算法的方面,包括位置,个人喜好,性别等。
对我们有多少了解?一位研究人员曾经分析过58,000名志愿者的“赞”,并基于此,他推断了一系列高度私人的个人特征,包括性取向,种族,政治观点,人格特征,智力状况,幸福感,使用成瘾性药物,父母离婚,年龄和成本。可以预见的是,随着物联网和面部识别等技术的快速发展,算法将越来越多地积累越来越多的用户数据,并变得越来越“智能”。这伴随着“谁将限制算法”的问题。
4。平台优先
分析指出,平台()是影响信息流呈现的因素之一,例如优先考虑在您自己的平台上呈现视频,而不是在用户信息流上进行视频。分析发现,平台优先级也是算法值的要素之一。
如前所述,还向用户推销了一些非新信息,共有47个项目。这些信息涵盖了以下类型:标题和答案(例如“为什么不应该说您不应该一个人吃?”),图片(例如“旧照片:30年前的,Henan 的 ”),简短的视频(例如“在家里找到一些浪费并在家里做一些浪费,您也可以在18个角色上做一个年龄的人(例如18岁),例如18岁的人(pe)。开始了三次自己的生意,成功了三遍,甚至追逐女友也很可能。”)。这些非新闻信息全部来自的自媒体平台-。
张曾经说过:“传统媒体告诉其他人的观点,将提供实用信息,例如为养猪者提供更好的养猪养殖信息,并告诉患者患有强直性脊柱炎的患者如何治疗它们。传统媒体传达的价值观,我们只是让有益的信息接触个人。”作为一家商业公司,的核心操作 - “由代码构建的一组算法”将受到公司整体战略布局的指导和影响,并且在该平台上产生的内容是首选的,无论内容本身在传统意义上是否都是新闻。
最后,本文试图概述算法值的图片(请参见表2)。上述分析和讨论对RQ1的答案。
表2 算法的价值概念的四个要素
(2)成千上万的人:没有两个人收到完全相同的新闻推动
RQ2专注于狭窄信息的问题。通过对77名参与者收到的新闻推动的内容分析,发现使用的算法分布达到了“一千张面孔”的“一张面孔”,没有两个人收到完全相同的新闻推动。那么,对个性化的重点和赞美会导致信息的狭窄吗?在本文中,作者将信息的缩小定义为:一种类型的新闻推动账户超过50%。如表3所示,有11位参与者的新闻推动变窄。以一个例子为例。他是的老用户,行动和社会特征都表明他对NBA感兴趣。 A将A的新闻推送标题导入到“ CI频率统计工具”中。结果表明,最常见的名词是火箭(12次),骑士(10次),威斯布鲁克(9次),季后赛(9次)和快船(8次),所有这些都与NBA有关。
表3:参与者新闻推动的信息缩小
由于每天推动太多新闻可能会打扰用户,因此强调,尽管强调了某些新闻类型,但其他类型将相应地削弱。根据统计数据,在为期三周的时间里,有49名参与者从未收到体育新闻推广,有14名参与者从未收到有关台湾的新闻,32名参与者从未收到技术新闻推动,而16名参与者从未收到经济新闻推广。这种现象值得关注,因为CNNIC报告表明,只有在推动移动电话推动新闻的网民中,有26.7%的网民。 拥有1.4亿活跃用户,这意味着大约3000万用户的新闻消费取决于手机推动。在这里,手机推送扮演“接口代理”()的角色,并锻炼信息筛选的力量。该过程直接影响用户的信息消耗,但研究表明,大多数用户不了解个性化算法的操作机制。面对这些信息不对称,即算法积累了大量有关用户的数据,并且用户不知道这一点,改善用户的算法素养变得重要而必要。
V.结论
鉴于近年来国内在线新闻市场的变化,媒体平台对个性化新闻建议和算法分布越来越关注。随着守门能力从手动编辑转移到智能算法,传统新闻价值无法再解释当前的新趋势和行业的新趋势。在此背景下,本文提出了算法值的概念,并总结了四个主要组成元素:场景,内容,用户偏好和平台优先级。此外,本文讨论了狭窄信息的问题,并发现14%的参与者获得了单一新闻类型的50%以上。然后,作者强调了提高用户算法素养的必要性。
本文仍然存在一些缺点。首先,由于样本量较小,衍生算法值组成元素可能会偏差。例如,内容的普及只能针对90年代后的组,而不是针对所有年龄段的用户。其次,本文的结论主要依赖于对当今算法分布的调查,以及其他汇总新闻客户(例如 和 News)不包括在讨论范围中。面对激烈的市场竞争,各种汇总新闻客户的代码设计和优化往往会开放或关闭吗?不同客户端之后,算法值之后有哪些相似之处和差异?这些需要在进一步的研究中得到改善。
张在许多情况下都提到了的发展目标,“帮助用户更好地发现信息”,“使信息和人更快地”,“提高信息的吞吐量和分配效率” ... 指出了这种“解决方案主义”的缺点,指出了这些新的过滤器的效率,但速度更快,更便宜,更便宜,效率和效率,并且有效地效率和效率,并且有效地效率和效率,并且有效地效率,并且有效地效率,并且有效地效率我们的生活中的算法。需要注意的“严重恶化问题”包括违反肖像侵犯用户隐私,算法偏见和歧视,算法短视,缺乏人文价值等。因此,在拥抱算法的“热门”趋势的同时,我们还必须考虑“冷酷的算法”,我们还必须考虑“冷”和社会的影响,并在公共范围内以及在公共范围内的影响,以及对 on grom 及其影响的影响,并在公共范围内进行了影响。算法操作。
(本文摘自Wang Qian:“打开算法分布的“黑匣子” - 基于当今的头条新闻推送的定量研究。
在这里,了解中国新闻业的转变
在这里,探索新闻业的未来
在这里,深刻而认真的思考
在这里,关心新闻记者的命运!
帮助