如果你想建立的DOM可以使用jsdom 。
还有CHEERIO ,它具有jQuery的界面,比jsdom其快了很多。
你可能会想看看htmlparser2 ,这是一个流分析器,并根据它的基准,这似乎是比别人快,也没有DOM默认。它也可以产生DOM ,因为它也*了创建一个DOM的处理程序。这是一种用于后面CHEERIO解析器。
如果你要解析的HTML抓取,你可以使用YQL 。这里是它的一个节点模块。 YQL我觉得这是最好的解决办法,如果你的HTML是从一个静态的网站,因为你是靠服务,而不是你自己的代码和处理能力。但要注意,如果该页面是由网站的robot.txt的禁止是行不通的, YQL将无法使用它。
如果你想抓取的网站是动态的,那么你应该使用一个无头的浏览器一样phantomjs 。也看看casperjs ,如果你正在考虑phantomjs 。你可以从节点SpookyJS控制casperjs 。
除了phantomjs有zombiejs 。不同,不能嵌入的NodeJS phantomjs , zombiejs仅仅是一个节点的模块。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。