运用咱们的单页网站的关键是要认识到,咱们的服务器可以判断一个要求是由爬虫跟踪的,仍是由运用web阅读器的人跟踪的,并做出响应的响应。当咱们的阅读器是一个人运用的网络阅读器时,它应该是一般的、爬行动物型的,并返回到页面优化。这是咱们想要显示的爬虫,以及爬虫可以轻松读取的格局。
咱们网站的主页会是甚么样子?这也可以是咱们的徽标或其余主要图象。咱们但愿泛起在搜索后果中。一些优化seo文本形容了它是甚么样的网站,或者只形容了咱们但愿谷歌索引的页面的html链接列表。该页面没有任何css样式应用于其庞大的html结构。它也没有任何javascript或链接的网站,咱们不但愿谷歌索引(如法令公告页面或其余页面,咱们不但愿人们经由过程谷歌搜索进入)。显示页面能够会提交到阅读器(左)和(右)。
常规,一个单页网站会运用散列爆炸(!)链接赴任别的内容。
这提供了一个调整他们网站的时机,谷歌专门为单页网站用户开发。它不是经由过程写明晰而有吸引力的单词来吸引别人,而是被爬虫了解,每一个页面均可以优化,而不消担忧其别人。跟踪的途径可以经由过程咱们的网站进行控制,使咱们能够直接从谷歌搜索后果到一组特定的输入页面。这将需求更多的工程师来开发部合作作,但在搜索后果的位置和留住客户方面,这能够会支出不少价值。
这个设备仿佛将是一个庞大的测试,由于咱们没有自己的谷歌机械人。然而,谷歌提供的服务可以在公开的出产站点上实现这一点,但一种更简略的测试要领是坑骗咱们的用户代理字符串。这需求一些号令行双轮牛车,但chrome开发者工具使这变得容易。只需单击一个按钮便可选中该框:
翻开chrome开发者工具,点击按钮和谷歌工具栏右边的三条程度线,而后从菜单当选择工具,点击开发工具。
屏幕右下角有一个gear图标:单击并查看一些***开发职员选项,比方xmlhttprequest以禁用缓存和翻开记载。
在只知其一,不知其二个选项卡中,标识表记标帜overlay,单击用户代理选项卡旁边的复选框,而后从下拉列表当选择chrome、firefox、ie阅读器、宠物、牲畜等随便数目的用户代理。谷歌机械人代理不是默许选项。要运用它,请选择另外一个要复制并粘贴到输入中的用户代理字符串。
此刻,该标签自己被坑骗为谷歌机械人。当咱们在网站上翻开任何uri时,咱们应该会看到爬虫页面。
显然,差别的应用程序会有差别的需求。至于怎样运用网络爬虫,老是向谷歌机械人返回一个页面能够还不敷。咱们还需求决议要公开哪些页面,并为咱们的应用程序映射提供要领。咱们但愿用key=value向它们显示uri的内容。
你能够想要一个花梢的前端框架来婚配服务器的响应,但我常规在这里采用一种简略的要领,创立一个定做页面的爬虫气势派头,并在一个零丁的路由器中抓取它们。
另有不少正当的爬虫程序,以是一旦咱们调整了咱们的谷歌爬虫服务器,咱们可以扩展到包括他们。