今日头条发展历程与数据概览:创立4年的多元产品线背后
成立于2012年3月,此后仅4年。从十多名工程师到研发,到数百到200多个。产品线从孔子笑话转变为,今天的特殊销售,今天的电影和其他产品线。
1。产品背景
为用户提供个性化信息客户端。让我与您分享当今头条新闻的当前数据(基于内部和公共数据组合):
1。文章捕获和分析
我们在日常生活中生产约10,000篇原始新闻文章,包括主要的新闻网站和当地电台,以及一些小说,博客和其他文章。对于工程师来说,写东西并不困难。
接下来,将手动审查和过滤敏感的文章。此外,目前还有大量来自 帐户的原始文章已添加到内容选择队列中。
接下来,我们将对文章进行文本分析,例如基于该文章或新闻的区域,受欢迎程度,权重等的分类,标签,主题提取和计算。
2。用户建模
当用户开始使用时,他将对用户操作的日志进行实时分析。所使用的工具如下:
我们探索用户的兴趣并了解用户的所有动作。主要用途:
像大多数架构一样,生成的用户模型数据存储在mySQL/(读取 - 写入分离)和/redis中。
随着用户数量继续扩展,用户模型处理的机器簇数量相对较大。 2015年之前,大约有7,000个单位。其中,用户推荐模型包括以下维度:
目前,您需要每时每刻提出建议。
3。新用户的“冷启动”
将“识别”用户使用的手机,操作系统,版本等。此外,例如,如果用户通过社交帐户登录,例如Sina Weibo,将制作其朋友,粉丝,微博内容以及转发,评论和其他维度的初步“肖像”。
分析用户的主要参数如下:
除手机硬件外,还将分析用户安装的应用程序。例如,使用小米,三星和Apple组合模型和应用程序以分析,并且还有用于用户浏览器的书签。 将实时捕获用户的操作。它还包括用户订阅的渠道,例如电影,笑话,产品等。
4。推荐系统
推荐系统,也称为推荐引擎。它是技术架构的核心部分。它包括两种类型:自动推荐和半自动推荐系统:
1)自动推荐系统
目前,需要高效率,大笔推送系统,数亿用户必须收到它们。
2)半自动推荐系统
的渠道分为分类渠道,兴趣标签渠道,关键字渠道,文本分析等,并且这些渠道都分为相对独立的开发团队。目前有300多个分类器,并且仍在添加新的用户模型。原始的用户模型无需无证件,并且仍然发挥作用。
当尚未发布帐户时,内容主要是从其他平台上爬网,然后是,每年数百万,而不是太大。它主要包括用户行动日志收集,兴趣收集和用户模型收集。
信息应用程序的技术指标,例如屏幕刷新,用户是否阅读了所有文章,以及逗留时间等,我们需要特别注意它。
5。数据存储
使用MySQL或Mongo持久存储 +(REDIS),并将许多库(大型内存库)划分,并且还尝试使用SSD产品。
的图片存储直接放置在数据库中,并以分布式的方式保存文件。阅读时使用CDN。
6。消息推
消息推送,用户:及时获取信息。对于操作,它可以改善用户活动。例如,在今天的推动之后,它可以将DAU增加约20%。如果没有推动力,它将影响大约10%的DAU(2015年数据)。
推送后要遵循的ROI:单击速率,单击计数。能够监视应用程序卸载的数量并推送禁用。
今天的推动的主要内容包括突然和热门话题,一些评论和答复以及网站注册外的朋友加入。
在头条新闻上,Push也被个性化:
例如:
据这座城市说:骗子发生了一个新闻事件,该事件发送给了乔阳的当地用户。
根据兴趣:例如,收购了第一商店,并将其发送给对感兴趣的用户。
推动平台的工具和选择需要满足以下标准:
因此,推送后端应提供每日报告,完成数据后端并提供A/B测试解决方案支持。
推动系统的一部分使用了自己的IDC,该IDC具有特别大的传输量,并消耗了严重的带宽。您可以使用类似于阿里巴巴云的服务,这可以有效节省成本。
2。系统体系结构
3。微服务体系结构
使用分子系统将大型应用程序分为小应用程序,并将抽象的通用层分为重复使用代码。
系统的层次结构非常典型。重点是基础设施,我们希望改善快速迭代,灾难恢复和通过基础设施的一系列工作。我们希望各种业务团队可以更快地进行业务迭代和建筑调整。
4。的虚拟化PAAS平台计划
通过三层通过PAAS平台实施。提供通用SaaS服务并提供通用应用执行引擎。底层是IaaS层。
Iaas管理所有机器并整合公共云。在全国范围内,的一些热门活动将在全国范围内促进,这对于网络带宽相对较高。在公共云的帮助下,需要统一和抽象哪种类型的计算资源。基础架构结合了面向服务的想法,例如记录,监视和其他功能。企业可以享受基础设施提供的功能,而无需关注细节。
5。摘要
当今头条新闻的重要部分是:
数据生成和收集
数据传输。 Kafka在线和离线系统进行消息总线连接。
数据存储。数据仓库,ETL(提取转换加载)
数据计算。数据仓库中的数据表如何有效地查询至关重要,因为这将直接影响数据分析的效率。通用查询引擎可以分为三种模式,分别类别,MPP类,Cube类和,均以三种模式使用。