RSS滋长了中文网络世界的抄袭吗?
据说中文的搜索引擎实现之中有一个技术难点,就是消重,所谓消重就是把重复的内容给自动消除掉.搜索结果中太多的重复内容会大大降低用户的搜索体验.消重是个需要权衡的环节,过于苛刻会使得搜索结果很少,过分宽松会导致大量重复类似的内容. 为什么中文的搜索消重比英文的难?原因之一就是中文网络世界特有的现象 --抄袭.
抄袭在早期是个体力活儿,你至少得去把别人的东西给抄来.早期的互联网公司就雇佣了大量的打字员把传统媒体的文字给抄到网络上去; 后来抄袭简单了很多,不需要打字了,只要copy+paste即可,所以有人开玩笑说只要会Copy+paste就能当网站编辑; 如今抄袭变得更简单了,直接把别人的RSS抓取来,重新输出在自己的页面上,全自动的连人都不需要了,然后美其名曰"在线RSS博览"之类的名字.
随便做了个实验,搜索我上几周的一篇文章,结果如在这里, 有兴趣自己看一下。
除了头条, 其他大多数来自于一些"网络媒体", 其来源和方法基本都是抓RSS自己输出的, 如今搞个"媒体"还真省心. 看到几个类似的媒体所有内容都来自于抓取, 但页面和文字段落之中插满了广告, 看看页面的代码发现还隐藏作了很多SEO的文章, 看来主要是为了search engine能多带些流量去. 这种赚钱方法的确"省心", 所谓取之于Google, 来自于Google. :)
这些现状导致我找些中文的东西常常很头疼,更糟糕的还有些人给内容改头换面一下,换个标题作者什么的以充分体现编辑还是做了些事情的。
英文世界里类似的情况要少很多,不知道为什么。
(另外发现Scribefire编辑时也可以copy/paste图片,包括抓屏的,顺便测试下ScribeFire能否自动upload图片...Updated: 结果发现不行, upload上的blog中图片为:<img src="///C:/DOCUME%7E1/mao/LOCALS%7E1/Temp/moz-screenshot-4.jpg" />还在我硬盘上 :) )
Powered by ScribeFire.
Related posts:
- SEA – SFO – Virgin America – Twitter – Boarding.fr
- 知易行难 vs 知难行易 - Startup vs Established
- 再读《人月神话(The Mythical Man Month)》
- Mac OSX, Windows, Linux, *nix闲谈
- Ideas的演变 -- How to kill too many ideas
- 思考:未来的web服务是否还需要用户注册的部分?
- Disagreements – 留给自己日后的记录
- My blog is my social network, my buzz, my twitter, my flickr, my YouTube…
- Google Buzz使用随感
- 0 bug - 谦虚的程序员和骄傲的“大师”
Search related in web: