<legend id='v10vmxqg'><style id='d2h1uef6'><dir id='bbqw1ohr'><q id='q4jgn3x2'></q></dir></style></legend>
<tfoot id='vekwejwy'></tfoot>
<i id='ks16e1t0'><tr id='uwcjk928'><dt id='xrdsu1uc'><q id='4zmnwul7'><span id='yoxm1iug'><b id='dkep73ei'><form id='rds9o2ay'><ins id='jg0ng63e'></ins><ul id='con5f3fn'></ul><sub id='jsqk0bq7'></sub></form><legend id='gwmwowsx'></legend><bdo id='zj26vuvq'><pre id='cdukkk3k'><center id='h4reofo7'></center></pre></bdo></b><th id='rja8d9vy'></th></span></q></dt></tr></i><div id='f4ua517b'><tfoot id='eb3nvr07'></tfoot><dl id='4fcb61ji'><fieldset id='2fwfc4wk'></fieldset></dl></div>
  1. <small id='6p4qfnf5'></small><noframes id='jx6qc2x2'>

      <bdo id='qnzh4sw5'></bdo><ul id='cu85qkxq'></ul>
    1. 精准传达 • 价值共享

      洞悉互联网前沿资讯,探寻网站营销规律

      采集侠定向规则采集

      作者: 庚午网络 | 2021-02-09 20:20 |点击:

    2. <tfoot id='if6njfdm'></tfoot>
    3. <small id='2zxx1thq'></small><noframes id='7w24u88b'>

      • <bdo id='m56b5wbe'></bdo><ul id='54wsospi'></ul>

            <tbody id='urjk476g'></tbody>
            1. <legend id='kxtqwy3s'><style id='ovo07qgt'><dir id='spfgbx7u'><q id='9z1acyz4'></q></dir></style></legend>

                <i id='2bp3vr6n'><tr id='d28gz4cg'><dt id='rqvdxdbm'><q id='sfnnitys'><span id='xujxs2x3'><b id='sf3ymmog'><form id='mx3d6eot'><ins id='p5y0oclp'></ins><ul id='bhty4k8q'></ul><sub id='4hyu1t3b'></sub></form><legend id='sth5il0v'></legend><bdo id='3og6yf9u'><pre id='62t4hoxb'><center id='aukeli1q'></center></pre></bdo></b><th id='k0spcbpy'></th></span></q></dt></tr></i><div id='wudpbwkl'><tfoot id='ko2ce44s'></tfoot><dl id='cn3gydv7'><fieldset id='iyjndm3v'></fieldset></dl></div>
              1. 1、设置定向采集


                1)、登录您网站后台,模块->采集侠->采集任务,如果您的网站还没有添加栏目,你需要先到织梦的栏目管理里先添加栏目,如果已经添加了栏目,你可能可以看到如下界面



                2)、在弹出的页面里选择定向采集,如图所示



                3)、点击添加采集规则,这就是添加定向采集规则的页面了,这里我们要详细说下


                2、设置 目标页面编码

                     打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,如图所示即为utf-8



                3、设置 列表网址

                     列表网址就是您要采集的网站的栏目列表地址
                     如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:http://www.chinaz.com/web/seo/,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

                     匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:

                     第一页的URL是:http://www.chinaz.com/web/seo/1.shtml
                     第二页的URL是:http://www.chinaz.com/web/seo/2.shtml
                     第三页的URL是:http://www.chinaz.com/web/seo/3.shtml

                     通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。


                4、设置 文章网址

                     文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。

                     例:

                     比如我要采集站长之家优化栏目里面的文章,他们的文章URL是
                     http://www.chinaz.com/web/2011/0926/211708.shtml
                     http://www.chinaz.com/web/2011/0926/211705.shtml
                     http://www.chinaz.com/web/2011/0926/211694.shtml
                     通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml

                     也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。

                     我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。

                5、设置 标题、作者、来源、内容、分页规则

                     首先这个规则采集侠默认都是自动识别的,但是自动识别的效果有可能没有自己设置的好,也有可能有的网站采集侠识别不了,如果标题和内容采集侠识别不到那么就什么都采集不到了!所以这里建议是内容规则最好手工设置,而作者和来源规则可以不设置,也可以到采集侠的高级设置菜单里设置成固定的作者以及来源。
                     标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,所以这里就以内容规则来举例说明。

                     采集侠是怎么根据你的规则找到文章内容的呢,其实就是你写个规则告诉它文章从哪里开始,从哪里结束,最后写成规则就是   开始的地方的代码[内容]结束的地方的代码,

                     比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇,
                     如:
                     http://www.chinaz.com/web/2015/0702/418785.shtml
                     打开后,右键查看源码,通过查看源码找到文章处,你可以通过搜索文章中的句子去找文章所在的大概位置



                最后我们把前后的代码做成规则,就是

                <div class="article-detail-bd">[内容]</div>

                最后点击测试,如果测试成功了点击保存即可采集

                二度创作,如有侵权请联系删除。如没特殊注明,文章均为庚午网络原创,转载请注明https://www.hngengwu.com/gengwuwenku/830.html

                  • <bdo id='va9717ba'></bdo><ul id='tjcbl3ni'></ul>

                1. <i id='b255jvsv'><tr id='s0veg03v'><dt id='9q6bhuiy'><q id='css3l4i4'><span id='158zoh2s'><b id='atgp6au0'><form id='qze9127u'><ins id='jxgusmwu'></ins><ul id='0toi8y9b'></ul><sub id='99hnbrsp'></sub></form><legend id='0d2wf0h9'></legend><bdo id='aan45i8j'><pre id='gycwr0nh'><center id='d7b3ykhc'></center></pre></bdo></b><th id='enkahkme'></th></span></q></dt></tr></i><div id='mfgbgfvv'><tfoot id='v263gdwk'></tfoot><dl id='s8xgb77i'><fieldset id='7hlwjcwg'></fieldset></dl></div>

                  <tfoot id='8nr2chjp'></tfoot>

                  <small id='n2h9ec2c'></small><noframes id='l10rgz1e'>

                  <legend id='clnzww6x'><style id='2imgz7ig'><dir id='dsbcltny'><q id='7hkfit2p'></q></dir></style></legend>
                  1. 多一份策划方案,总有益处。

                    请直接添加技术总监微信联系咨询

                    网站设计 品牌营销

                    多一份参考,总有益处

                    联系庚午网络,获得专属《策划方案》及报价

                    咨询相关问题或预约面谈,可以通过以下方式与我们联系

                    业务热线:18574395938 / 大客户专线:18574395938