欢迎访问北单实体店微信:200833335

足球赛事

您现在的位置是: 主页 > 北单体育资讯 > 北单头条资讯

北单头条资讯

今日头条发展历程与数据概览:创立4年的多元产品线背后

发布时间:2025-04-04 08:01 北单头条资讯 作者:北单实体店微信:200833335
今日头条创立于2012年3月,到目前仅4年时间。从十几个工程师开始研发,到上百人,再到200余人。产品线由内涵段子,到今日头条,今日特卖,今日电影等产品线。...

成立于2012年3月,此后仅4年。从十多名工程师到研发,到数百到200多个。产品线从孔子笑话转变为,今天的特殊销售,今天的电影和其他产品线。

1。产品背景

为用户提供个性化信息客户端。让我与您分享当今头条新闻的当前数据(基于内部和公共数据组合):

1。文章捕获和分析

我们在日常生活中生产约10,000篇原始新闻文章,包括主要的新闻网站和当地电台,以及一些小说,博客和其他文章。对于工程师来说,写东西并不困难。

接下来,将手动审查和过滤敏感的文章。此外,目前还有大量来自 帐户的原始文章已添加到​​内容选择队列中。

接下来,我们将对文章进行文本分析,例如基于该文章或新闻的区域,受欢迎程度,权重等的分类,标签,主题提取和计算。

2。用户建模

当用户开始使用时,他将对用户操作的日志进行实时分析。所使用的工具如下:

我们探索用户的兴趣并了解用户的所有动作。主要用途:

像大多数架构一样,生成的用户模型数据存储在mySQL/(读取 - 写入分离)和/redis中。

随着用户数量继续扩展,用户模型处理的机器簇数量相对较大。 2015年之前,大约有7,000个单位。其中,用户推荐模型包括以下维度:

目前,您需要每时每刻提出建议。

3。新用户的“冷启动”

将“识别”用户使用的手机,操作系统,版本等。此外,例如,如果用户通过社交帐户登录,例如Sina Weibo,将制作其朋友,粉丝,微博内容以及转发,评论和其他维度的初步“肖像”。

分析用户的主要参数如下:

除手机硬件外,还将分析用户安装的应用程序。例如,使用小米,三星和Apple组合模型和应用程序以分析,并且还有用于用户浏览器的书签。 将实时捕获用户的操作。它还包括用户订阅的渠道,例如电影,笑话,产品等。

4。推荐系统

推荐系统,也称为推荐引擎。它是技术架构的核心部分。它包括两种类型:自动推荐和半自动推荐系统:

1)自动推荐系统

目前,需要高效率,大笔推送系统,数亿用户必须收到它们。

2)半自动推荐系统

的渠道分为分类渠道,兴趣标签渠道,关键字渠道,文本分析等,并且这些渠道都分为相对独立的开发团队。目前有300多个分类器,并且仍在添加新的用户模型。原始的用户模型无需无证件,并且仍然发挥作用。

当尚未发布帐户时,内容主要是从其他平台上爬网,然后是,每年数百万,而不是太大。它主要包括用户行动日志收集,兴趣收集和用户模型收集。

信息应用程序的技术指标,例如屏幕刷新,用户是否阅读了所有文章,以及逗留时间等,我们需要特别注意它。

头条频道今日特卖直播_头条频道今日特卖节目_今日头条特卖频道

5。数据存储

使用MySQL或Mongo持久存储 +(REDIS),并将许多库(大型内存库)划分,并且还尝试使用SSD产品。

的图片存储直接放置在数据库中,并以分布式的方式保存文件。阅读时使用CDN。

6。消息推

消息推送,用户:及时获取信息。对于操作,它可以改善用户活动。例如,在今天的推动之后,它可以将DAU增加约20%。如果没有推动力,它将影响大约10%的DAU(2015年数据)。

推送后要遵循的ROI:单击速率,单击计数。能够监视应用程序卸载的数量并推送禁用。

今天的推动的主要内容包括突然和热门话题,一些评论和答复以及网站注册外的朋友加入。

在头条新闻上,Push也被个性化:

例如:

据这座城市说:骗子发生了一个新闻事件,该事件发送给了乔阳的当地用户。

根据兴趣:例如,收购了第一商店,并将其发送给对感兴趣的用户。

推动平台的工具和选择需要满足以下标准:

因此,推送后端应提供每日报告,完成数据后端并提供A/B测试解决方案支持。

推动系统的一部分使用了自己的IDC,该IDC具有特别大的传输量,并消耗了严重的带宽。您可以使用类似于阿里巴巴云的服务,这可以有效节省成本。

2。系统体系结构

今日头条特卖频道_头条频道今日特卖直播_头条频道今日特卖节目

头条频道今日特卖直播_今日头条特卖频道_头条频道今日特卖节目

头条频道今日特卖节目_头条频道今日特卖直播_今日头条特卖频道

头条频道今日特卖直播_头条频道今日特卖节目_今日头条特卖频道

3。微服务体系结构

使用分子系统将大型应用程序分为小应用程序,并将抽象的通用层分为重复使用代码。

头条频道今日特卖直播_今日头条特卖频道_头条频道今日特卖节目

系统的层次结构非常典型。重点是基础设施,我们希望改善快速迭代,灾难恢复和通过基础设施的一系列工作。我们希望各种业务团队可以更快地进行业务迭代和建筑调整。

4。的虚拟化PAAS平台计划

通过三层通过PAAS平台实施。提供通用SaaS服务并提供通用应用执行引擎。底层是IaaS层。

Iaas管理所有机器并整合公共云。在全国范围内,的一些热门活动将在全国范围内促进,这对于网络带宽相对较高。在公共云的帮助下,需要统一和抽象哪种类型的计算资源。基础架构结合了面向服务的想法,例如记录,监视和其他功能。企业可以享受基础设施提供的功能,而无需关注细节。

5。摘要

当今头条新闻的重要部分是:

数据生成和收集

数据传输。 Kafka在线和离线系统进行消息总线连接。

数据存储。数据仓库,ETL(提取转换加载)

数据计算。数据仓库中的数据表如何有效地查询至关重要,因为这将直接影响数据分析的效率。通用查询引擎可以分为三种模式,分别类别,MPP类,Cube类和,均以三种模式使用。

广告位