如何检测微信文章是否是原创文章?

9158APP 0

如何检测微信文章是否是原创文章?

如何检测微信文章是否是原创?

1.为什么搜索引擎要重视原创性

1.1 馆藏激增

百度的一项调查显示,超过80%的新闻信息是人工转载或机器采集的,从传统媒体报纸到娱乐网站八卦,从游戏指南到产品评论,甚至大学图书馆发布的提醒。还获悉,部分站点正在进行机器收集。可以说,优质原创内容是浩瀚收藏的沧海一粟。对于搜索引擎来说,搜索海洋中的水滴既困难又具有挑战性。

1.2 改善搜索用户体验

数字化降低了沟通成本,工具化降低了采集成本,机器采集行为混淆了内容来源并降低了内容质量。在采集过程中,无意或有意,采集网页内容不全、格式混乱或垃圾过多等问题接连出现,严重影响了搜索结果的质量和用户体验。搜索引擎重视原创性的根本原因是为了提高用户体验。这里所说的原创,就是优质的原创内容。

1.3 鼓励原创作者和文章

转载和收藏分流了优质原创站的流量,不再冠以原作者的名字,这将直接影响优质原创站长和作者的收入。长远来看,会影响原创者的积极性,不利于创新和新的优质内容的生产。鼓励优质原创,鼓励创新,为原创网站和作者提供合理的流量,从而促进互联网内容的繁荣,应该是搜索引擎的重要任务。

2、收藏狡猾,原创性鉴别困难。

2.1 收集假原件、篡改关键信息

目前,大量网站批量采集原创内容,然后通过人工或机器方法篡改作者、发布时间、来源等关键信息,冒充原创。这种假原创需要被搜索引擎识别并适当调整。

2.2 内容生成器,制造伪原创

使用自动文章生成器等工具“创建”一篇文章,然后安装一个引人注目的标题,现在成本非常低,而且必须是原创的。但原创必须具有社会共识价值,而不是随便创造出一条毫无意义的垃圾,才算有价值的优质原创内容。虽然内容独特,但不具备社会共识价值。搜索引擎需要重点识别和打击此类内容伪原创。

2.3 网页差异化及结构化信息提取难度

不同的网站结构有很大不同,HTML标签的含义和分布也不同。因此,提取标题、作者、时间等关键信息的难度也相差很大。在目前中国互联网的规模下,要全面、准确、最及时地提及一切并不容易。这部分就需要搜索引擎和站长之间良好的配合才能运行得更顺利。如果网站管理员以更清晰的结构告知搜索引擎网页的布局,将允许搜索引擎有效地提取原始且相关的信息。

3、百度如何认定原创性?

3.1 成立原创项目团队,打持久战

面对挑战,为了提高搜索引擎的用户体验,为了让优质原创网站得到应有的效益,为了推动中国互联网的进步,我们动员了大批人组成一个原创项目团队:技术、产品、运营、法务等。这不是临时组织,也不是一两个月的项目。我们已经做好了打持久战的准备。

3.2 原始识别“起源”算法

互联网上有数百亿或数千亿个网页。挖掘原创内容可以说是大海捞针。我们独创的识别系统,基于百度大数据云计算平台开发,可以快速实现对所有中文互联网网页的重复聚合和链接指向关系分析。

首先,根据内容相似度对采集内容和原创内容进行聚合,将相似的网页聚合在一起作为原创识别的候选集;

其次,对于原创候选集,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创性、转发轨迹等数百个因素对原创网页进行识别和判断;

最后,利用价值分析系统来确定原创内容的价值,并为最终排名提供适当的指导。

目前,通过我们的实验和真实的线上数据,“Origin”算法已经取得了一定的进展,解决了新闻资讯领域的大部分问题。当然,还有更多其他领域的原创问题等待《起源》解决,我们正在坚定前行。

3.3 原始Spark项目

我们一直致力于原创内容的识别和排序算法调整。然而,在当前的互联网环境下,快速识别原创内容、解决原创问题确实面临着巨大的挑战。计算数据规模巨大,我们面临的采集方式无穷无尽。不同网站的建设存在方法和模板差异巨大、内容提取复杂等问题。这些因素都会影响原有的算法识别,甚至导致判断错误。这时,百度和站长就需要共同努力,共同维护互联网的生态环境。站长推荐原创内容,搜索引擎经过一定判断后对原创内容给予优惠,共同推动生态完善,鼓励原创。这就是“原星火计划”,旨在快速解决当前面临的严重问题。此外,站长对原创内容的推荐将应用到“起源”算法中,这将有助于百度发现算法的缺陷,不断改进它,并以更智能的识别算法自动识别原创内容。

目前,原创Spark项目也取得了初步成果。第一阶段,一些重点原创新闻网站的原创内容在百度搜索结果中被赋予原创标签、作者展示等,并在排名和流量方面也取得了合理的提升。

最后,原创是一个生态问题,需要长期改进。我们将持续投入,与站长们共同推动互联网生态的进步;原创是一个环境问题,需要大家共同努力来维护。站长应该多创作原创作品,多推荐原创作品。百度将继续努力完善排名算法,鼓励原创内容,为原创作者和原创网站提供合理的排名和流量。