ในยุคที่ข้อมูลมีค่าดั่งทองคำสำหรับการเทรน AI โมเดลภาษาขนาดใหญ่ หรือ LLM บรรดาสำนักข่าวระดับโลกเริ่มตระหนักว่า คลังข้อมูลอันมหาศาลที่พวกเขาสร้างขึ้นกำลังถูก ดูด ไปใช้ฟรี ๆ โดยบริษัท Tech ยักษ์ใหญ่
แม้ว่าหลายสำนักข่าวจะเริ่มบล็อกบอทของบริษัท AI เช่น GPTBot ของ OpenAI ไม่ให้เข้ามาเก็บข้อมูลหน้าเว็บโดยตรง แต่พวกเขากลับพบ ช่องโหว่ ขนาดใหญ่ นั่นคือ Internet Archive จาก Wayback Machine

ช่องทางธรรมชาติ หรือประตูหลังบ้าน?
Robert Hahn ผู้บริหารจาก The Guardian สื่อดังฝั่งอังกฤษ เปิดเผยข้อมูลที่น่าตกใจว่า เมื่อพวกเขาตรวจสอบ Log การเข้าถึงเว็บไซต์ พบว่า Internet Archive เป็นหนึ่งในบอทที่เข้ามาเก็บข้อมูลถี่ที่สุด ซึ่งโดยปกติแล้ว นี่คือภารกิจอันน่ายกย่องในการ Archiving หรือเก็บรักษาหน้าประวัติศาสตร์เว็บไว้ให้คนรุ่นหลัง
แต่ปัญหาคือ บริษัท AI หัวใสเริ่มใช้ Internet Archive เป็น ทางลัด หรือ Backdoor
แทนที่ AI จะส่งบอทมาที่เว็บสำนักข่าวโดยตรง ซึ่งโดนบล็อกไปแล้วหรือติด Paywall พวกเขากลับส่งบอทไปดึงข้อมูลจาก Wayback Machine แทน เพราะที่นั่นมี Snapshot ของข่าวเก่า ๆ เก็บไว้มหาศาล และที่สำคัญคือ ข้อมูลใน API ของ Internet Archive นั้นค่อนข้างเป็นระบบระเบียบ ซึ่งเป็นอาหารอันโอชะและเคี้ยวง่ายสำหรับ AI
มาตรการขั้นเด็ดขาดจาก The Guardian และ NYT
เมื่อเห็นดังนั้น The Guardian จึงตัดสินใจ จำกัดการเข้าถึง ของ Internet Archive โดยเฉพาะในส่วนของหน้าบทความข่าว เพื่อลดความเสี่ยงที่เนื้อหาจะถูก AI ดูดไปใช้ผ่าน Repository ของ Archive ที่มีหน้าเว็บเก็บไว้กว่าล้านล้านหน้า
Robert Hahn ยอมรับว่า Wayback Machine เองอาจจะมีความเสี่ยงน้อยกว่า แต่ API ของมันนี่แหละคือจุดตาย “ธุรกิจ AI จำนวนมากกำลังมองหาฐานข้อมูลที่มีโครงสร้างพร้อมใช้ และ API ของ Internet Archive ก็เป็นเหมือนปลั๊กไฟที่รอให้ใครก็ได้เอาเครื่องจักรมาเสียบเพื่อดูด IP ออกไป”
ไม่ใช่แค่ The Guardian เท่านั้น The New York Times ก็ยืนยันชัดเจนว่ากำลังใช้มาตรการ Hard Blocking หรือบล็อกบอทของ Internet Archive แบบเข้มข้น โดยระบุชื่อบอท archive.org_bot ลงในไฟล์ robots.txt เพื่อห้ามไม่ให้เข้าถึงเนื้อหาโดยเด็ดขาด
โฆษกของ NYT ให้เหตุผลที่น่าสนใจว่า “เราเชื่อในคุณค่าของวารสารศาสตร์ที่สร้างสรรค์โดยมนุษย์ และ Wayback Machine กำลังเปิดทางให้เนื้อหาของเราถูกเข้าถึงได้อย่างไร้ขอบเขต รวมถึงโดยบริษัท AI โดยไม่ได้รับอนุญาต”
Gannett กับตัวเลขที่น่าตกใจ: 75 ล้านบอทในเดือนเดียว!
มาดูฝั่ง Gannett เจ้าของสื่อใหญ่อย่าง USA Today กันบ้าง ข้อมูลจาก CEO Mike Reed ระบุว่า ในเดือนกันยายนปี 2025 เพียงเดือนเดียว พวกเขาต้องบล็อกบอท AI ไปถึง 75 ล้านตัว! และกว่า 70 ล้านตัวในนั้นมาจาก OpenAI
นี่คือตัวเลขที่สะท้อนให้เห็นว่า การรุกราน ของบอทเพื่อเก็บข้อมูลนั้นรุนแรงแค่ไหน Gannett จึงไม่มีทางเลือกอื่นนอกจากต้องบล็อกบอททุกทาง รวมถึงบอทจาก Internet Archive ด้วย เพื่อปกป้องสินทรัพย์ของตนเอง
เมื่อ “คนดี” กลายเป็นความเสียหายข้างเคียง
Michael Nelson ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์เปรียบเทียบไว้อย่างเห็นภาพว่า “Common Crawl และ Internet Archive ถูกมองว่าเป็น ‘คนดี’ ของโลกอินเทอร์เน็ตมาตลอด แต่ตอนนี้คนดีกำลังถูก ‘คนร้าย’ อย่าง OpenAI ใช้เป็นเครื่องมือ… สุดท้ายคนดีเลยได้รับความเสียหายข้างเคียงในสงครามนี้”
Internet Archive เองก็พยายามปรับตัว Brewster Kahle ผู้ก่อตั้งบอกว่า หากสำนักข่าวจำกัดสิทธิ์ห้องสมุด สาธารณชนก็จะเข้าถึงประวัติศาสตร์ได้น้อยลง ซึ่งมันขัดกับภารกิจในการต่อสู้กับ “ความบิดเบือนของข้อมูล”
แต่ในมุมของธุรกิจ มันปฏิเสธไม่ได้จริง ๆ ว่า บริษัท AI บางรายก็เล่นไม่ซื่อ มีกรณีที่บริษัท AI ยิง Request เข้ามาเป็นหมื่น ๆ ครั้งต่อวินาทีจน Server ของ Internet Archive ล่ม เพื่อจะดูดข้อมูล Text ไปเทรนโมเดล จนสุดท้ายต้องออกมาขอโทษและบริจาคเงินให้
Thumbsup มองว่า จากข้อมูลที่ Nieman Lab ไปขุดคุ้ยไฟล์ robots.txt ของสำนักข่าวทั่วโลกกว่า 1,167 แห่ง พบว่ามีถึง 241 เว็บไซต์ ส่วนใหญ่เป็นเครือ Gannett ในสหรัฐฯ ที่เริ่มบล็อกบอทของ Internet Archive แล้ว ซึ่งเหตุการณ์ดังกล่าวแสดงให้เห็นถึงความเปลี่ยนแปลงดังนี้
- Content is Protected Asset: ยุคที่คอนเทนต์ถูกปล่อยฟรีเพื่อหวัง Traffic อาจจะเริ่มเปลี่ยนไปสู่การ หวงแหน ข้อมูลมากขึ้น แบรนด์และสื่อจะเริ่มมองว่าข้อมูลบนเว็บคือสินทรัพย์ที่ต้องปกป้องจากการถูก AI นำไปใช้ฟรี ๆ
- The End of Open Web?: เราอาจกำลังเข้าสู่ยุคที่ Open Web หรือเว็บที่เปิดกว้างเชื่อมถึงกันเริ่มมีกำแพงกั้นสูงขึ้น การเข้าถึงข้อมูลย้อนหลังอาจทำได้ยากขึ้น หรือต้อง จ่ายเงิน เพื่อเข้าถึง เหมือนกรณี Reddit ที่ขายข้อมูลให้ Google
- Bot Management คือเรื่องใหญ่: การจัดการบอท หรือ Bot Management จะกลายเป็นสกิลสำคัญของฝ่าย IT และ Marketing เพื่อแยกแยะว่าบอทไหนคือ มิตร เช่น Google Search และบอทไหนคือ ศัตรู เช่น AI Scraper
สถานการณ์นี้น่าเป็นห่วงสำหรับอนาคตของการเก็บรักษาข้อมูลสาธารณะ การที่สื่อต้องลุกขึ้นมาปกป้องตัวเองเป็นเรื่องที่เข้าใจได้ แต่ผลกระทบที่ตกอยู่กับ Internet Archive ซึ่งเป็นเหมือน ความทรงจำของโลกอินเทอร์เน็ต นั้นรุนแรง
ถ้าแนวโน้มนี้ยังดำเนินต่อไป เราอาจจะพบว่าในอนาคต การจะย้อนดูหน้าเว็บข่าวเก่า ๆ หรือหาข้อมูลอ้างอิงทางประวัติศาสตร์ อาจจะไม่ใช่เรื่องง่ายและฟรีอีกต่อไป และนั่นคือราคาที่สังคมต้องจ่ายให้กับความฉลาดล้ำของ AI



