展开
介绍一款数据分析能力很强的工具给你。XPath2Doc通用网站数据采集及Doc生成工具是一个半自动采集网页生成WordDocx文件的工具,XPath2Doc最新版有很多知名企业查询的机构数据入驻,可以在这里查询你需要的数据情况。并且保存下载。
1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。
General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。
自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。
2、使用本程序前,请先建立好你自己的INI配置文件和Docx模板文件。(具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板)
需要说明的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。
启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分。等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,如果网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。
如果前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,如果浏览器没有换页面,数据就错了。)如果某个部分需要重新采集,请先点击下拉菜单中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意改变浏览器的数据页面,得到的就是不同公司数据)。
列表中采集得到的数据结果如果有偏差,可以单击自行修改。XPath语句如果有什么错误,也可以自己修改看测试结果(XPath语句在修改后会立即重新抓取浏览器的数据,所以浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请自行手工保存。
如果列表中数据无误,预览窗口中的Docx模板内容也正确,则可以点击创建文档按钮,填写要生成的文件名,本软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。
需要说明的是,右下角的Docx预览窗口不能完整的支持Word文档,对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况,可以忽略,或者将模板文件改成规范的文本格式(单倍行距)。
加载全部内容
uninstall tool密钥1K40170人在玩不能免费使用这款卸载软件是因为你没用un...
下载diskgenius离线激活码37M32341人在玩diskgenius注册码生成器使用起来...
下载守望先锋dva本子完整版1M19153人在玩喜欢玩守望先锋的玩家是不是都喜欢美女英雄...
下载友邦微信群发软件27.84M18845人在玩我点,我点点点,不就群发微信嘛!我手动会...
下载吉吉影音资源BT种子397K47848人在玩我们吉吉影音再一次放大招了~吉吉影音资源...
下载网页自动点击操作助手电脑版8M15750人在玩经常需要进行刷新网页的朋友可以来使用本站...
下载CDR注册机323K15620人在玩cdr注册机怎么用使用方法方面你有了新的...
下载一片云验证码平台1004K11060人在玩现在用手机注册个vip都需要验证码好麻烦...
下载360种子在线编辑器1M13262人在玩360种子在线编辑器是不是你现在很想要,...
下载奥维互动地图vip账号分享工具28M10140人在玩奥维地图vip怎么收费?这你根本不用管,...
下载