在PC端收藏一个网址,然后通过手机浏览的时候只在手机端显示标题、图片、文字。其他一切的相关文章、推荐文章、广告都被分离。怎么实现的呢?

4 个回答

你可以参照evernote的web插件

如果要自己实现的话,就针对你要抓取的网站的文档结构进行抓取即可。

这种应用很多,有read it later, instapaper, readability

推荐一i额我常用的 read it later,http://readitlaterlist.com/

你的需求都可以满足,而且还是跨平台跨应用的。

推荐Readability 和 Instapaper. Readability

研究过readability和Evernote Cleary的算法。
基本原理差不多。
遍历HTML的DOM结构,根据各个DOM容器里面的标签来评分判断是否为正文内容。
比如说某个DOM容器中有大量的<p>标签,那有可能这个DIV就是正文内容部分,便给这个容器评分增加。
如果某个DOM容器中有大量的<ul><li>之类的标签,那有可能就是广告或者推荐列表的非正文部分,那么给它减分,
而不同的HTML标签都占有不同的分值权重,比如<p><article>之类的分值权重就比较高,最后得出的各个分值再进行微调得出总分值。

最后分值最高的就有可能是纯净的文字内容。如果最高分低于某一个值,那判断此页面没正文内容或者不能处理。

evernote cleary的算法稍微复杂,但基本原理一样,evernote cleary中会经过第一次剥离内容,将算出分值大于某一个值的都列为候选。 而将这些候选的内容再经过第二种算法进行比较最后得出最好的结果。

至于还有类似服务 read it later , kindle之类的因为算法没有公开没有研究过,但基本原理应该都是差不多的。

虽然有些页面可能处理并不理想,但这类能对付大部分页面了

你的回答