1. <big id="znufz"></big>
      <blockquote id="znufz"></blockquote>

            <mark id="znufz"><pre id="znufz"><option id="znufz"></option></pre></mark><code id="znufz"></code>
              1. <big id="znufz"></big> <big id="znufz"><strong id="znufz"></strong></big>
                1. <code id="znufz"></code>
                    <var id="znufz"></var>
                  1. <mark id="znufz"><button id="znufz"></button></mark>
                  2. <thead id="znufz"></thead><var id="znufz"></var><big id="znufz"><menuitem id="znufz"><tt id="znufz"></tt></menuitem></big>
                    1. <var id="znufz"><delect id="znufz"><source id="znufz"></source></delect></var>

                        1. <acronym id="znufz"><ruby id="znufz"><div id="znufz"></div></ruby></acronym>
                            <dl id="znufz"></dl>
                            <output id="znufz"><ins id="znufz"><thead id="znufz"></thead></ins></output><dl id="znufz"></dl>
                            網站公告 > robots.txt 的作用及寫法

                            字號:

                            robots.txt 的作用及寫法


                            來源:網站云優化

                            robots.txt 文件可限制抓取網頁的搜索引擎蜘蛛對您網站的訪問。這些蜘蛛是自動的,它們在訪問任意網站的網頁之前,都會查看是否存在阻止它們訪問特定網頁的 robots.txt 文件。

                            robots.txt是什么?

                            簡單的說,就是在百度進來抓取,告訴百度蜘蛛哪些東西是可以看的,哪些東西是不能看的。robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被搜索引擎訪問的部分,或者指定搜索引擎只收錄指定的內容。

                            當一個搜索引擎(又稱搜索機器人或蜘蛛程序)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那么搜索機器人就沿著鏈接抓取。

                            只有當您的網站中包含您不想讓搜索引擎編入索引的內容時,才需要使用 robots文件。如果您希望搜索引擎將網站上的所有內容編入索引,則不需要 robots.txt 文件。為了能使用 robots.txt 文件,您必須要有對您域的根目錄的訪問權限(如果您不能確定是否有該權限,請與您的網絡托管商核實)。

                            Robots協議用來告知搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取;可以屏蔽一些網站中比較大的文件,如:圖片,音樂,視頻等,節省服務器帶寬;可以屏蔽站點的一些***鏈接。方便搜索引擎抓取網站內容;設置網站地圖連接,方便引導蜘蛛爬取頁面。

                            robots文件寫法

                            User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符

                            Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

                            Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

                            Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

                            Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL。

                            Disallow: /*?* 禁止訪問網站中所有包含問號 (?) 的網址

                            Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片

                            Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。

                            Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄

                            Allow: /tmp 這里定義是允許爬尋tmp的整個目錄

                            Allow: .htm$ 僅允許訪問以".htm"為后綴的URL。

                            Allow: .gif$ 允許抓取網頁和gif格式圖片

                            Sitemap: 網站地圖 告訴爬蟲這個頁面是網站地圖

                            robots文件用法

                            例1. 禁止所有搜索引擎訪問網站的任何部分

                            User-agent: *

                            Disallow: /

                            實例分析:淘寶網的 Robots.txt文件

                            User-agent: Baidu百度蜘蛛

                            Disallow: /

                            User-agent: baidu百度蜘蛛

                            Disallow: /

                            很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。

                            例2. 允許所有的robot訪問 (或者也可以建一個空文件 “/robots.txt” file)

                            User-agent: *

                            Allow: /

                            例3. 禁止某個搜索引擎的訪問

                            User-agent: BadBot

                            Disallow: /

                            例4. 允許某個搜索引擎的訪問

                            User-agent: Baidu百度蜘蛛

                            allow:/

                            例5.一個簡單例子

                            在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。

                            需要注意的是對每一個目錄必須分開聲明,而不要寫成 “Disallow: /cgi-bin/ /tmp/”。

                            User-agent:后的*具有特殊的含義,代表“any robot”,所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現。

                            User-agent: *

                            Disallow: /cgi-bin/

                            Disallow: /tmp/

                            Disallow: /~joe/

                            Robot特殊參數:

                            允許 Googlebot:

                            如果您要攔截除Googlebot以外的所有漫游器不能訪問您的網頁,可以使用下列語法:

                            User-agent:

                            Disallow: /

                            User-agent: Googlebot

                            Disallow:

                            Googlebot 跟隨指向它自己的行,而不是指向所有漫游器的行。

                            “Allow”擴展名:

                            Googlebot 可識別稱為“Allow”的 robots.txt 標準擴展名。其他搜索引擎的漫游器可能無法識別此擴展名,因此請使用您感興趣的其他搜索引擎進行查找。“Allow”行的作用原理完全與“Disallow”行一樣。只需列出您要允許的目錄或頁面即可。

                            您也可以同時使用“Disallow”和“Allow”。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:

                            User-agent: Googlebot

                            Allow: /folder1/myfile.html

                            Disallow: /folder1/

                            這些條目將攔截 folder1 目錄內除 myfile.html 之外的所有頁面。

                            如果您要攔截 Googlebot 并允許 Google 的另一個漫游器(如 Googlebot-Mobile),可使用”Allow”規則允許該漫游器的訪問。例如:

                            User-agent: Googlebot

                            Disallow: /

                            User-agent: Googlebot-Mobile

                            Allow:

                            使用 * 號匹配字符序列:

                            您可使用星號 (*) 來匹配字符序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目: User-Agent: Googlebot

                            Disallow: /private*/

                            要攔截對所有包含問號 (?) 的網址的訪問,可使用下列條目:

                            User-agent: *

                            Disallow: /*?*

                            使用 $ 匹配網址的結束字符

                            您可使用 $字符指定與網址的結束字符進行匹配。例如,要攔截以 .asp 結尾的網址,可使用下列條目: User-agent: Googlebot

                            Disallow: /*.asp$

                            您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網址,確保 Googlebot 不會抓取重復的網頁。但是,以 ? 結尾的網址可能是您要包含的網頁版本。在此情況下,可對 robots.txt 文件進行如下設置:

                            User-agent: *

                            Allow: /*?$

                            Disallow: /*?

                            Disallow: / *?

                            一行將攔截包含 ? 的網址(具體而言,它將攔截所有以您的域名開頭、后接任意字符串,然后是問號 (?),而后又是任意字符串的網址)。

                            Allow: /*?$ 一行將允許包含任何以 ? 結尾的網址(具體而言,它將允許包含所有以您的域名開頭、后接任意字符串,然后是問號 (?),問號之后沒有任何字符的網址)。

                            盡管robots.txt已經存在很多年了,但是各大搜索引擎對它的解讀都有細微差別。Google與百度都分別在自己的站長工具中提供了robots工具。如果您編寫了robots.txt文件,建議您在這兩個工具中都進行測試,因為這兩者的解析實現確實有細微差別。

                            一般我們就把robots.txt文件放置在網站的根目錄下。舉例來說,當百度蜘蛛訪問一個網站時,首先會檢查該網站中是否存在robots.txt這個文件,如果百度蜘蛛找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。

                            這里小編舉一個自己的例子。由于網站在上線前不希望百度來抓取網站的內容,所以就寫了個robots.txt。不寫還好,一寫就出了差錯,忙中出亂,網站上線后忘了刪除,結果網站遲遲沒有收錄,等到半個月后才發現是robots文件中的 “Disallow: /”導致了蜘蛛沒有來抓取。

                            后來把robotss.txt刪了,才慢慢開始收錄,但是網站排名流量上的還是很慢。

                            那么我們該如何檢測網站中的robots文件呢?

                            以上面這個網站為例,我們可以在網站地址后面直接輸入”/robots.txt”來查看,如果現實404,這表示服務器中沒有robots文件。或者在百度搜索欄中直接搜索您的域名地址,也會在搜索結果中顯示您是否有robots文件。

                            那么我們到底要不要使用robots文件呢?

                            其實是沒這個必要的,如果您的網站中包含有客戶賬戶密碼等隱私信息,可以使用robotss.txt單獨屏蔽這個文件夾,正常情況下小編還是建議完全開放您的網站的,比較蜘蛛抓取的多了,對網站的排名會有很大的好處,而使用robots文件后或多或少的會減少百度蜘蛛的抓取。

                            SEO優化小編提醒大家,robots.txt雖好,可是要慎用啊。

                            搜索云平臺 北京云無限科技有限公司  電話: 京ICP備15022936號-12 北京公安局備案京公網安備 11010502030986號

                            這里是專業SEO服務公司,通過SEO技術讓您的網站更符合搜索引擎優化規則,快速提高關鍵詞排名與網站權重,讓網站詢盤率更多,轉化率更高。

                            1. <big id="znufz"></big>
                              <blockquote id="znufz"></blockquote>

                                    <mark id="znufz"><pre id="znufz"><option id="znufz"></option></pre></mark><code id="znufz"></code>
                                      1. <big id="znufz"></big> <big id="znufz"><strong id="znufz"></strong></big>
                                        1. <code id="znufz"></code>
                                            <var id="znufz"></var>
                                          1. <mark id="znufz"><button id="znufz"></button></mark>
                                          2. <thead id="znufz"></thead><var id="znufz"></var><big id="znufz"><menuitem id="znufz"><tt id="znufz"></tt></menuitem></big>
                                            1. <var id="znufz"><delect id="znufz"><source id="znufz"></source></delect></var>

                                                1. <acronym id="znufz"><ruby id="znufz"><div id="znufz"></div></ruby></acronym>
                                                    <dl id="znufz"></dl>
                                                    <output id="znufz"><ins id="znufz"><thead id="znufz"></thead></ins></output><dl id="znufz"></dl>
                                                    广西福利彩票自助投注
                                                    1. <big id="znufz"></big>
                                                      <blockquote id="znufz"></blockquote>

                                                            <mark id="znufz"><pre id="znufz"><option id="znufz"></option></pre></mark><code id="znufz"></code>
                                                              1. <big id="znufz"></big> <big id="znufz"><strong id="znufz"></strong></big>
                                                                1. <code id="znufz"></code>
                                                                    <var id="znufz"></var>
                                                                  1. <mark id="znufz"><button id="znufz"></button></mark>
                                                                  2. <thead id="znufz"></thead><var id="znufz"></var><big id="znufz"><menuitem id="znufz"><tt id="znufz"></tt></menuitem></big>
                                                                    1. <var id="znufz"><delect id="znufz"><source id="znufz"></source></delect></var>

                                                                        1. <acronym id="znufz"><ruby id="znufz"><div id="znufz"></div></ruby></acronym>
                                                                            <dl id="znufz"></dl>
                                                                            <output id="znufz"><ins id="znufz"><thead id="znufz"></thead></ins></output><dl id="znufz"></dl>
                                                                            1. <big id="znufz"></big>
                                                                              <blockquote id="znufz"></blockquote>

                                                                                    <mark id="znufz"><pre id="znufz"><option id="znufz"></option></pre></mark><code id="znufz"></code>
                                                                                      1. <big id="znufz"></big> <big id="znufz"><strong id="znufz"></strong></big>
                                                                                        1. <code id="znufz"></code>
                                                                                            <var id="znufz"></var>
                                                                                          1. <mark id="znufz"><button id="znufz"></button></mark>
                                                                                          2. <thead id="znufz"></thead><var id="znufz"></var><big id="znufz"><menuitem id="znufz"><tt id="znufz"></tt></menuitem></big>
                                                                                            1. <var id="znufz"><delect id="znufz"><source id="znufz"></source></delect></var>

                                                                                                1. <acronym id="znufz"><ruby id="znufz"><div id="znufz"></div></ruby></acronym>
                                                                                                    <dl id="znufz"></dl>
                                                                                                    <output id="znufz"><ins id="znufz"><thead id="znufz"></thead></ins></output><dl id="znufz"></dl>