机器人的“Blog Network”
1、 Icebin的困惑
其他的延展阅读:
施于人: icebin为什么要困惑
詹膑: 关于blogbeta,postshow,ofblog与blog network
虹: BlogMedia与广告
谁来经营Blognetwork
博客士:
Blog的商业体现需要包工头
老冒: blogging network: 如何维持统一和持久的品牌价值?
Icebin: 也谈Blog媒体
这么出来的东西,不就是 机器人的“Blog Network” 吗?
http://www.flickr.com/photos/zhengyun/293060731/
百度、Google是通过用户搜索输入的关键词来判断中文世界的热点。而我们通过分析博客们写作的数十万篇博文来寻找热点的。通过这种主题自动发现技术,可以很容易知道最近中文世界人们在讨论什么、在关注什么。而不需要任何人为的输入关键词来做第一推动力。
譬如说,如下所示的热点组:
-----------
主题
245------------------
核心文档:
(index=11646507.xml)
新快报:韩国人发明汉字
index=11645945.xml
title=
如何拯救我们的文化?
index=11645979.xml
title=
看看韩国对中国犯的七宗罪
(
随时更新
)
index=11647900.xml
title=
汉字真是韩国人发明的又能怎样(图)
index=11651176.xml
title=
韩国人为什么敢意淫汉字?
index=11654537.xml
title=
韩国人疯了宣称“汉字是古代韩国人发明的”!
-----------
主题
246------------------
核心文档:
(index=11646015.xml)
财经新闻报道的创新
index=11645987.xml
title=
财经新闻与“利益”视角――财经报道心得点滴谈
index=11646003.xml
title=
我们怎么写财经新闻
index=11646009.xml
title=
美国华人记者看中国财经报纸――《华尔街日报》成长的启示
index=11646031.xml
title=
国外财经媒体的启示:大众化还是专业化
index=11646037.xml
title=
需要财经大视野――新形势下经济报道的新特点分析
可以表明人们在讨论两个热点:“韩国人是否发明了汉字的争论”和“财经新闻如何制作的分析”。
目前,这种计算将会每天计算一次。未来希望能够半天计算一次,这就对爬虫速度以及热点计算速度提出了很高的要求。
"想知道在最近三小时内中文博客们在热烈讨论什么吗?"
那就看我们的“Most Popular”频道吧。
Technorati.com依靠url链接来计算最流行的热点排行榜(Most Popular: http://www.technorati.com/pop/ ),在中国不可能完全根据链接计算热点,只能靠语义。
早先的swordi这篇blog也谈到了类似的意思不过提到的这些都是人手动作的专题并且人有意识提取在先。其实机器可以自己去发现去整理。
{
中文网志年会归来的Blog回响:编辑2.0的时代已经来临
http://swordi.com/2006/11/04
看起来Technorati.com在中国大陆是无法访问了:( 国内的Souyo.com有些差强人意,收录Post的速度滞后很严重,在杭州参加 中文网志年会 的第二天访问 Souyo.com开设的中文网志年会的专题页面 ,发现没有新鲜的内容。
今年有许多人在做手工编辑的网志年会内容聚合,例如博客报的Blo
这个简单的体验,也说明Blog的发展在2006