&
编写者
|
日期
|
关键词
|
郑昀
|
<chsdate isrocdate="False" islunardate="False" day="15" month="6" year="2007" w:st="on"><span lang="EN-US" style="COLOR: gray; FONT-FAMILY: Verdana; mso-bidi-font-family: Arial">2007-6-15</span></chsdate>
|
Meme 热点 引爆点 techmeme
|
2005 年 9 月, techmeme 的前身 memeOrandum 横空出世,在当时北美也算是刮起了一阵旋风,大家把它和 slashdot 、 digg 这些成名站点相提并论,并提出了 slashdot 效应类似的 memeOrandum 效应。
techmeme 这款 由 Gabe Rivera 主导的热点计算引擎,对由他自己定义 的 blog 列表进行实时监测,通过追寻 blog 、新闻媒体 的 url 链接来挖掘 blogger 之间的对话线索,并以对话的形式展现在 首页上,成为一个非常有效的内容过滤器, Tells us what's hot and what's not 。
这种链接挖掘热点的算法在中国并不适用,原因很简单:
中国博客很少在博文正文里嵌入 URL 链接 。
同样原因, Google 的 PageRank 算法在博客上也发挥不了太大价值。
实际上,从 2006 年下半年开始,我们一直都在秘密研发 Content Engine( 内容引擎 ) ,其中“ 热点自动发现 (hot point) ”就涵盖了 techmeme 的方向。
转眼进入 2007 年,最近媒体上屡屡提及 techmeme 。
如 <chsdate isrocdate="False" islunardate="False" day="25" month="5" year="2007" w:st="on"><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">5</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">月</span><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">25</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">日</span></chsdate> ,新浪翻译 Read/Write Web 的文章《 美著名科技博客:谷歌新闻与 Techmeme 大比拼 》。
如经济观察报 2007 年 6 月出版的 CEO 经观商业评论刊载了《 网络社区这些年 》,其中说道“ 在第一轮互联网泡沫破灭之后, Slashdot 的影响力开始逐渐变弱。近年来,新兴的 Techmeme 开始取代前者的地位。 ”
曾经获评为 Microsoft 十大最热 Blogger 的 Alex Barnett 也于 <chsdate isrocdate="False" islunardate="False" day="23" month="5" year="2007" w:st="on"><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">5</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">月</span><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">23</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">日</span></chsdate> 发表文章《 How I find stuff I like 》说 techmeme 是他的三个内容过滤器之一: “ The three main methods I use to find content I'll be interested in are: 2. Techmeme - two or three times daily. Tells me what's hot and what's not. ”
引子
2006 年 1 月,我撰写并发布了《 MemeEngine 讨论集 一 、 二 、 三 》 ( 点击 此处下载 完整 PDF 文档 ) 。当时也注意到有几个人在媒体上宣布说要复制 techmeme ,但随后便没有了下文。也许正是因为 techmeme 的链接分析算法根本 无法搬到中国来。
一直在路上
2006 年 3 月,我开始寻找符合中国特色的 meme engine 之路,很快发现只有文本挖掘算法才能做这件事情。
博客内容的文本挖掘,在中国还有一个大问题要解决。博客比新闻要复杂得多得多:
l 文字风格:博客风格迥异,往往不按牌理出牌,天马行空,远远比规范书写的新闻要难分析。
l 涉及的范围:博客什么都谈论,大到国家大事,小到个人情感,甚至流水帐。
l 信息源分散:国内大大小小数百家 BSP ,数以百万计个博客发布文章,很难在第一时间收集起来并迅速展开大规模计算。
2006 年 9 月,我和中科院软件所的 张俊林张博士 等一起创建了 玩聚网 ,瞄准信息过滤器和人过滤器的未来大方向。
2006 年 10 月, 张博士 推出了 “热点自动发现”算法 。但这时候,算法还不太成熟,在非事件驱动、非新闻驱动的分类中表现不佳,比如: 互联网 、 两性 ,在新闻驱动的 明星 、 社会 表现则不错 。这种情况下还不能对外开放。
在我们为了内容引擎而研发了“主题聚类聚合”“话题时间脉络”算法之后, 又回过头来重新优化了热点自动发现算法。这次的精度就上升到了一个新高度,真正可以做到:
从爬虫抓取到输出各个领域的热点,整个流程不用任何人工、不用编辑审核就能直接放出来给普通用户看。
郑昀
“ 我们上星期优化了互联网热点新发现算法,确实精度提高了很多,基本可以直接放出来给普通用户看了。 ”