พื้นฐานการทำเว็บไซต์
| Robots.txt คืออะไรใช้อย่างไร |
|
|
|
| เขียนโดย Administrator |
| วันอังคารที่ 16 มิถุนายน 2009 เวลา 22:18 น. |
|
คำตอบนั้นก็คือ file ที่ช่วยให้เราสามารถสั่งงานไอ้เจ้า Robots น้อยได้เท่านั้นเอง โดย Robots จากทุกที่ไม่ว่าจะเป็นของ Google , MSN , Yahoo ล้วนแล้วแต่ต้องอ่าน file นี้ก่อน file index ด้วยกันทั้งนั้น เพราะอะไรเหรอคับ ก็เพราะว่า file นี้นั้นจะเป็นตัวไปกำหนดว่า เจ้า Robots ที่เข้ามาอ่านนั้นจะสามารถเข้าถึงส่วนไหนได้บ้าง และ ไม่สามารถเข้าถึงส่วนไหนได้บ้าง ในส่วน Robots.txt ของ joomla User-agent: *หลัก ๆ ก็มีแค่นี้ ส่วนนี้ไม่ต้องแก้ไขอะไรนะครับ ปล่อยไว้เช่นเดิม เพราะเป็นสว่นที่ไม่ต้องการให้ บอทเข้ามาค้นหา อาจจะ กับส่วนหรือลิ้งก์ที่ละเอียดอ่อน หรือข้อมูลลับที่ไม่อยากเปิดเผย เช่น ข้อมูลยูส รหัสผ่าน อาจจะเป็นช่องโหว่ให้ผู้ที่ไม่ประสงค์ดี เข้ามาทำมิดีมิร้ายกับเว็บไซต์ของเรา มาดูความหมายของคำสั่ง ใน robots.txt 1. ต้องการสั่งงานเจ้า Robot ทุกตัวพิมพ์ประโยคนี้ใน file robots.txt ครับ User-agent: * 2. ต้องการสั้งงานเจ้า Robot แค่เพียงบางตัวก็ทำได้แต่เราต้องรู้ด้วยว่ามันมีชื่ออะไรเช่น User-agent: Googlebot User-agent: msnbot User-agent: Slurp ซึ่งแต่ละบรรทัดนั้นอาจจะเขียนทั้ง 3 บรรทัดหรือ 2 หรือ 1 ก็ได้คับ ซึ่งแต่เราอันนั้นก็จะเป็นของเว็บไซต์ดังๆทั้งนั้น นั้นก็คือ ของ Google , MSN , Yahoo ตามลำดับ 3. เมื่อเรารู้แล้วว่าเราจะสั่งงานกับเจ้า Robot ตัวไหนบ้างจากนี้เราก็มาสั่งมันกันสักที โดยที่เราจะทำการห้ามมันไม่ให้ไปเก็บข้อมูลตรงส่วนไหนบ้างโดยใช้คำสั่ง Disallow เช่น 3.1 ในกรณีที่เราต้องการไม่ให้มันมาเก็บข้อมูลของเราทั้งเว็บไซต์จะใช้คำสั่ง Disallow: / 3.2 ในกรณีที่เราต้องการไม่ให้มันมาเก็บข้อมูล บาง file <เช่น homework.pdf จะใช้คำสั่ง Disallow: /homework.pdf 3.3 ในกรณีที่เราไม่ต้องการให้มันมาเก็บข้อมูลของ ทั้ง folder ก็จะใช้คำสั่ง เช่น folder admin ก็จะใช้คำสั่ง Disallow: /admin/ 3.4 ในกรณีที่เราไม่ต้องการให้มันมาเก็บข้อมูลบางชนิดหรือบางนามสกุลก็สามารถทำได้เช่น พวก .pdf ซึ่งเป็น file เอกสารก็สามารถทำได้โดย Disallow: /*.pdf 3.5 ในกรณีที่เราต้องการห้ามเฉพาะบาง folder ที่อยู่ใน folder ย่อยเท่านั้นก็ทำได้เช่น Disallow: /images/private_images และนี่คือตัวอย่าง file robots.txt อย่างง่ายๆน่ะคับ User-agent: * Disallow: /errors/ Disallow: /images/ Disallow: /file/*.pdf ซึ่ง ที่เขียน 4 บรรทัด ข้างต้นนี้เราเราก็สามารถนำไปใส่ลงใน file robots.txt ได้เลยจากนั้นก็ up ขึ้น host เพิ่มทำการสั่งงานเจ้า robots น้อยของเราได้จากทุกที่
ข้อมูลบางส่วนจาก http://www.forum.huakala.com/index.php?topic=2624.0 การใช้ robots.txt อย่างมีประสิทธิภาพ ไฟล์ robots.txt จะบอกให้เครื่องมือสำหรับค้นหาเข้าถึงหรือไม่ก่อนที่จะทำการรวบรวมข้อมูลจากบางส่วนของเว็บไซต์คุณ ไฟล์ที่จะต้องตั้งชื่อควรจะวางอยู่ในรากของไซต์ http://www.youdomain.com/robots.txt
|
| แก้ไขล่าสุด ใน วันอังคารที่ 16 มิถุนายน 2009 เวลา 22:39 น. |






