软件推荐丨GoldDataSpider网页数据抽取工具
点击右上方,关注开源中国OSC头条号,获取最新技术资讯
GoldDataSpider是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。
该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。
该项目定义了一种简洁、灵活、敏捷的结构或者说是规则语法。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补充数据字段,比如某些字段需要向词典提供翻译这样的字段等等。
该项目还可支持从各种类型文档抽取数据,比如htmlxmljsonjavascripttext等。
我们还提供了规则可视化配制,请下载采集数量不受限、爬虫数量不受限、导出数据数量不受限的完全免费金色数据平台社区版。以及详尽的文档
使用入门
首先,我们需要将依赖加入项目当中,如下:
1、对于maven项目lt;dependencygt;
lt;groupIdgt;com。100shouhou。golddatalt;groupIdgt;
lt;artifactIdgt;golddataspiderlt;artifactIdgt;
lt;versiongt;1。1。3lt;versiongt;
lt;dependencygt;
2、对于gradle项目compilegroup:com。100shouhou。golddata,name:golddataspider,version:1。1。3
然后你将可以使用该依赖所提供的简洁清晰的API,如下:Test
publicvoidtestGoldSpider(){
StringruleContent
{n
node:li。sky。skyidn
date:n
{n
expr:h1n
label:日期n
}n
sn:n
{n
n
js:md5(baseUriitem。dateheaders〔ContentType〕);n
}n
weather:n
{n
expr:p。wean
}n
temprature:n
{n
expr:p。temgt;in
}n
}n;
GoldSpiderspidercom。xst。golddata。GoldSpider。newSpider()
。setUrl(http:www。weather。com。cnweather101020100。shtml)
。setRule(ruleContent)
。request();
Listlistspider。extractList();
Listlt;Weathergt;weathersspider。extractList(Weather。class);
Weatherweathersspider。extractFirst(Weather。class);
list。forEach(System。out::println);
}
运行上面的测试,你将可以看类似下面的输出:{date19日(今天),weather阴转小雨,temprature10,sn8bc265cb2bf23b6764b75144b255d81d}
{date20日(明天),weather小雨转多云,temprature11,sn9efd7e7bbbfb9bb06e04c0c990568bfd}
{date21日(后天),weather多云转中雨,temprature11,sn728539ac882721187741708860324afa}
{date22日(周六),weather小雨,temprature9,sna23fa2233e750a3bdd11b2e200ed06c3}
{date23日(周日),weather小雨转多云,temprature8,snb27e1b8a8e92a7bed384ceb3e4fdfb5f}
{date24日(周一),weather多云转小雨,temprature8,snc142b7fd12330ca031dd96b307c0d50d}
{date25日(周二),weather小雨转中雨,temprature6,sn16f71d3c8f09394588532a3ed1a8bacf}
当作Service或者API使用
你可以在项目中,可以当作调用服务和API使用。例如如下:Service
publicclassWeatherServiceImplimplementsWeatherService{
publicListlt;Weathergt;listByCityId(LongcityId){
Stringurlhttp:www。weather。com。cnweathercityId。shtml
Stringrulelt;同上gt;
GoldSpiderspidercom。xst。golddata。GoldSpider。newSpider()
。setUrl(url)
。setRule(ruleContent)
。request();
returnspider。extractList(Weather。class);
}
}
对于可视化配制,可以参考免费社区版文档。以下就免费社区版做简单介绍,详情见官网!
免费社区版:
开源免费
让用户更好理解和使用产品
我们针对数据采集免费,还开放和维护核心的开源代码项目。让用户可以更好的使用、理解采集,用好采集。让用户在各种场景应用金色数据采集带来的便利,我们有信心让客户见到一个开放的数据平台,让用户放心省心省力。
自由灵活
透出一股强大的采集核心
我们的采集器,将向用户暴露一切目标数据,除了常规网页内容,还有如URL、HTTP报头、Cookie等。还提供了各种解析工具和函数,让用户不仅能得到网页内容里的数据,还能得到URL、HTTP报头、Cookie里隐藏的核心数据,还能灵活做到智能防封。
分布式采集
私有云,更灵活,更安全,更放心
可以根据自身需求,随意部署采集器数量,724小时不间断运行,采集后端集中灵活控制。可自由指挥数据在哪个采集器采集。可定义定时采集,无需人员值守。
数据可关联可追踪
恢复重建数据内在与外在价值
可以让每条数据随着目标网站目标内容更新(如商品价格)、而更新用户应用表该条数据相关字段内容。
非侵入式融合
融合从未如此现实和简单
完全可以在不改变用户应用表结构(增删改表列),而将采集数据融入到应用表中。
自动化一体化
无需人力操作,即抓即用
不只是采集可以自动化抓取,融合也提供了手动化和强大自动化功能。还将采集与融合操作无缝对接,可将目标数据抓一条融合一条,实时流向应用表,做到即抓即用!
点击下方链接,获取软件下载地址
GoldDataSpider首页、文档和下载网页数据抽取工具开源中国
中班折贴活动美丽的鱼活动目的:1、引导幼儿选择合适的圆形纸折各种各样的鱼身、鱼尾及水草等,进一步培养幼儿看图折纸的技能,巩固折、压、拼贴的技能。2、培养幼儿的观察力、想象力及交往合作的……
今日春节IT之家祝大家牛年牛气冲天!今天是春节,农历年正月初一。IT之家祝各位牛年新年快乐,牛气冲天!春节,即为传统的农历新年,俗称年节,传统名称为新年、大年、新岁。在口头上又称度岁、庆新岁、过年。中国人过……
抖音春晚期间抖音红包总互动次数达703亿IT之家2月12日消息抖音发布2021春晚数据报告,报告显示,春晚期间红包总互动次数达703亿,直播间累计观看人次12。21亿,实时在线最高人数达498。46万。2月11……
拼多多向陕西省红十字会捐赠1000万元用于疫情防控IT之家1月1日消息,据陕西发布官方微博消息,2021年12月31日,拼多多向陕西省红十字会捐赠1000万元用于陕西疫情防控、应急救护、大病救助、购置防疫和应急设备等。陕……
比亚迪2021年94名员工被查处追责28家供应商,举报最高奖IT之家1月25日消息,昨日,比亚迪在其廉洁比亚迪公众号平台发布《至比亚迪合作伙伴的一封信》,信中指出,2021年,因违反廉洁合作相关协议,28家供应商被比亚迪追究违约责任;同……
个别用户编造去乌克兰参战可获得学分等虚假信息,微信倡议理性发IT之家2月26日消息,昨日晚间,微信安全中心发布了《关于理性发布涉国际热点事件信息的倡议》。IT之家了解到,微信表示,近期,国际局势变化引发社会各界广泛关注。在国际局势……
行行出状元教学目标:1、使学生知道社会需要各行各业的劳动者,无论什么工作,只要干一行、爱一行,就能成为状元。2、培养学生要干一行、爱一行。3、教育学生做有文化的劳动者。……
百度申请注册度娘商标获得批准IT之家12月14日消息,企查查App显示,近期,百度在线网络技术(北京)有限公司多个度娘商标完成注册,商标国际分类涉设计研究、办公用品等。百度此前提交度娘商标注册申请被……
国美App改名为真快乐感谢IT之家网友你的手机是的线索投递!IT之家1月12日消息据IT之家网友投稿,国美App近日迎来更新,更新后的App直接换了个名字,改名为真快乐。据悉,真快乐是一……
国美双11推出九九会员等大促,空调安装全年十免10月27日消息,今日,国美联合海尔、海信、美的等空调品牌联合承诺升级十免服务,重塑空调行业安装标准,并拉开国美双十一的序幕。据悉,2020年双十一活动周期,国美陆续推出九九会……
高三政治抢分必备复习盘点热点考查角度分析近年来的高考政治试题我们可以发现,政治试题越来越注重对学生能力的考核,即要求学生能运用马克思主义基本原理分析和解决实际问题,这就必然涉及面广量大的社会……
物理牛顿第三定律教学反思牛顿第三定律是反映物体间相互作用的规律,它揭示了一对作用力与反作用力大小间的定量关系和方向间的具体关系,是牛顿运动定律整体的一个基本组成部分。牛顿第三定律作为牛顿运动定律的一个……