หน่วย 5
ฝึกปฏิบัติการใช้เทคโนโลยีสารสนเทศเพื่อการสื่อสารและสืบค้นข้อมูล
เทคโนโลยีการสืบค้นข้อมูลเทคโนโลยีการสืบค้นข้อมูล (Information Retrieval) ก่อกำเนิดมายาวนานพร้อม ๆ กับวิชาการทางวิทยาศาสตรคอมพิวเตอร์ เทคโนโลยีนี้คือเทคโนโลยีที่มีเป้าหมายหลักสอง ประการคือความสามารถค้นคืน (Recall) ซึ่งหมายถึงการสืบค้นหาข้อมูลข่าวสารสารสนเทศที่ มีความเกี่ยวข้องกับสิ่งที่เราสนใจให้ได้มากที่สุด และความแม่นยำในการสืบค้น (Precision) ซึ่ง หมายถึงความสามารถในการกำจัดข้อมูลข่าวสารที่ไม่เกี่ยวข้องออกไปให้มากที่สุด เทคโนโลยีนี้ ได้ทำให้นิสิตธรรมดา ๆ คนหนึ่งอย่าง “เจอร์รี่ หยาง” กลายเป็นมหาเศรษฐีของโลกภายในชั่ว ข้ามคืนเมื่อเขาร่วมกับเพื่อนประยุกต์นำวิชาการด้านนี้มาสร้างแม่ข่ายสืบค้นข้อมูลบน อินเตอร์เน็ตบริการผู้คนภายใต้ชื่อแปลก ๆ คือ “ยาฮู” ซึ่งใช้เทคโนโลยีการสืบค้นข้อมูลของ บริษัท “อิงค์โทมิ” เป็นหลักในปัจจุบันนอกจากยาฮูแล้วยังมีผู้ให้บริการสืบค้นข้อมูลบนอินเตอร์เน็ตอีกหลายรายที่ มีความสามารถไม่ยิ่งหย่อนไปกว่ากันยกตัวอย่างเช่น “แอลตาวิสตา” “อินโฟซีก” “ฮอทบอท” “ไลน์คอส” “เอกไซท์” เป็นต้น และที่เด่นมากอีกรายคือ “เดจาส์” ซึ่งให้บริการสืบค้นข้อ สนทนาของกลุ่มสนทนาต่าง ๆ ทั่วโลกความแม่นยำและความสามารถค้นคืนความต้องการการสืบค้นที่มีความแม่นยำสูง (high precision) หรือมีความสามารถค้น คืนสูง (high recall) อาจแปรเปลี่ยนได้ตามกาละและเทศะ กล่าวคือในบางกรณีผู้ใช้งานอาจ ต้องการการสืบค้นที่มีความสามารถค้นคืนสูง ซึ่งจะพบในการสืบค้นแบบกว้าง ๆ ยกตัวอย่าง เช่นถ้าเราต้องการสืบค้นประวัติของนายกรัฐมนตรีของไทยทุกคน และอีกตัวอย่างหนึ่งที่ ต้องการการสืบค้นที่มีความแม่นยำสูงคือการสืบค้นแบบเฉพาะเจาะจง เช่นเราต้องการสืบค้น ประวัติของนายกรัฐมนตรีไทยที่เคยแสดงวิวาทะกับพระพุทธทาสเรื่อง “จิตว่าง” จะเห็นได้ว่า การสืบค้นที่ต้องการความสามารถค้นคืนสูงมีความต้องการคำสำคัญ (keyword) น้อย เช่นจาก ตัวอย่างแรกเราต้องการคำสำคัญเดียวคือคำว่า “นายกรัฐมนตรี” ก็พอเพียงในขณะที่ตัวอย่างที่ สองเราอาจต้องใช้คำสำคัญหลายคำเช่น “นายกรัฐมนตรี” “นักปราชญ์” “ปากจัด” “รักสุนัข” เป็นต้นการทำงานของระบบสืบค้นข้อมูลทั่วไปเมื่อมีความแม่นยำสูงจะมีความสามารถค้นคืน ต่ำและในทางกลับกันถ้าความสามารถค้นคืนสูงความแม่นยำจะต่ำ เพื่อแก้ปัญหานี้ระบบการ สืบค้นข้อมูลส่วนใหญ่จึงได้มีการออกแบบภาษาการสืบค้นข้อมูล เพื่อสร้างสูตรการสืบค้นที่ สามารถกำหนดเงื่อนไขการสืบค้นเช่น “และ” “หรือ” “ไม่” “ติดกัน” “รวม” “ไม่รวม” ภาษา สืบค้นนี้ทำให้ได้ระบบที่ให้ความแม่นยำและความสามารถค้นคืนสูงในเวลาเดียวกันแต่มีปัญหา ที่ความไม่เป็นมาตรฐานเดียวกันของผู้ให้บริการแต่ละรายเช่น ยาฮูใช้สัญลักษณ์ต่าง ๆ แทน สูตรการสืบค้นเช่น เครื่องหมายบวกแทนการรวม เครื่องหมายลบแทนการไม่รวมคำสำคัญใน การสืบค้น ขณะที่รายอื่นใช้ตัวย่อแทนเช่น AND OR NOT EXC ADJ เป็นต้น การใช้ภาษาธรรม ชาติจึงเป็นแนวทางหนึ่งที่มีผู้ให้ความสนใจสูงทีเดียวการประมวลผลภาษาธรรมชาติกับการสืบค้นข้อมูลเทคโนโลยีการประมวลผลภาษาธรรมชาติมีประโยชน์เกี่ยวพันกับเทคโนโลยีการสืบค้น ข้อมูลมากเนื่องจากฐานข้อมูลที่จัดเก็บในระบบการสืบค้นข้อมูลจะเป็นข้อมูลที่ใช้ภาษาธรรม ชาติอยู่แล้วไม่มีการจัดสร้างรูปแบบการจัดเก็บเป็นพิเศษแต่อย่างไร นอกจากนี้การประมวลผล ภาษาธรรมชาติมีส่วนช่วยให้ผู้ใช้งานมีความสะดวกสบายที่จะสร้างรูปแบบการสืบค้นที่ซับซ้อน โดยจะช่วยแก้ปัญหาความไม่มีมาตรฐานของภาษาสืบค้นดังกล่าวมาแล้วการประมวลผลภาษาธรรมชาติแบ่งได้เป็นหกระดับใหญ่ ๆ คือ ระดับหน่วยเสียง (Phonological) ระดับการผันเสียงเป็นคำ (Morphological) ระดับพจนานุกรม (Lexical) ระดับกฎเกณท์ (Syntactic) ระดับความหมาย (Semantic) และระดับเชิงปฏิบัติจริง (Pragmatic) ในโอกาสข้างหน้าผู้เขียนจะได้กล่าวในรายละเอียดสำหรับเทคโนโลยีด้านนี้และ ผลกระทบกับชีวิตของพวกเราสำหรับภาษาไทยมีกลุ่มนักวิจัยคนไทยทำการวิจัยการสืบค้นข้ามภาษาไทยและต่าง ประเทศได้เพื่อเพิ่มความสามารถค้นคืนในกรณีของภาษาไทย เช่นผู้ใช้ป้อนคำสำคัญว่า “สาร สนเทศ” ระบบสามารถให้ผลการสืบค้นกับเอกสารที่มีคำต่าง ๆ เหล่านี้ปรากฏอยู่คือ “ไอที” “Information Technology” เป็นต้น สืบเนื่องจากปัจจุบันการใช้ภาษาไทยทับศัพท์หรือการใช้ ร่วมกับภาษาต่างประเทศสามารถพบได้อย่างกว้างขวางในชีวิตประจำวันการจัดเก็บฐานข้อมูลและการทำดัชนีมีงานวิจัยของทั้งคนไทยและต่างชาติพบว่าในเอกสารใด ๆ ไม่ว่าจะมีขนาดใหญ่เล็กต่าง กันเพียงใดโดยทั่วไปแล้วจะมีคุณสมบัติพิเศษที่น่าสนใจคือการใช้คำศัพท์ใหม่จะเพิ่มขึ้นอย่าง รวดเร็วในตอนต้น ๆ เอกสาร และจะค่อย ๆ เพิ่มขึ้นช้าลงจนเกือบไม่เพิ่มเลยที่ตอนกลาง ๆ ไป จนถึงท้ายเอกสาร มีการทดลองใช้เอกสารภาษาไทยในชีวิตประจำวันหลาย ๆ เอกสารมีขนาด นับล้านตัวอักษรมาวิเคราะห์ดูพบว่ามีการใช้คำศัพท์ทั้งหมดเพียงแค่สามพันกว่าคำเท่านั้นและ คำที่มีความถี่ในการใช้งานสูงและต่ำมาก ๆ จะเป็นคำที่มีผลต่อเนื้อหาใจความของเอกสารน้อย เช่นคำว่า “และ” “ที่” “ก็” “the” “of” “and” “to” เป็นต้นดังนั้นในระบบการสืบค้นข้อมูลจึงมีการทำหมวดหมู่ ประเภทของข้อมูลข่าวสารรวมถึง การใช้คำที่มีผลต่อเนื้อหาใจความสูงมาทำดัชนีของข้อมูลชี้ไปที่เนื้อเอกสารจริง ๆ ที่กระจายกัน อยู่ตามแม่ข่ายข้อมูลต่าง ๆ ทั่วโลกเพื่อเพิ่มประสิทธิภาพของการสืบค้นที่รวดเร็ว คุณภาพของ ดัชนีและประเภทของข้อมูลของแม่ข่ายสืบค้นข้อมูลแต่ละที่จึงแตกต่างกันไปสรุปเครื่องมือสืบค้นข้อมูลมีประโยชน์มากกับชีวิตของเราในยุคข้อมูลข่าวสารนี้ ความเข้าใจ หลักพื้นฐานของเทคโนโลยีการสืบค้นข้อมูลช่วยให้เราสามารถใช้เครื่องมือนี้ได้อย่างมีประสิทธิ ผลและประสิทธิภาพเพื่อ งมเข็มเล่มที่พวกเราสนใจในมหาสมุทรไอทีอันกว้างใหญ่ไพศาลนี้
ทีมา http://www.geocities.com/pisitp/irtech.htm
เทคโนโลยีการสืบค้นข้อมูลเทคโนโลยีการสืบค้นข้อมูล (Information Retrieval) ก่อกำเนิดมายาวนานพร้อม ๆ กับวิชาการทางวิทยาศาสตรคอมพิวเตอร์ เทคโนโลยีนี้คือเทคโนโลยีที่มีเป้าหมายหลักสอง ประการคือความสามารถค้นคืน (Recall) ซึ่งหมายถึงการสืบค้นหาข้อมูลข่าวสารสารสนเทศที่ มีความเกี่ยวข้องกับสิ่งที่เราสนใจให้ได้มากที่สุด และความแม่นยำในการสืบค้น (Precision) ซึ่ง หมายถึงความสามารถในการกำจัดข้อมูลข่าวสารที่ไม่เกี่ยวข้องออกไปให้มากที่สุด เทคโนโลยีนี้ ได้ทำให้นิสิตธรรมดา ๆ คนหนึ่งอย่าง “เจอร์รี่ หยาง” กลายเป็นมหาเศรษฐีของโลกภายในชั่ว ข้ามคืนเมื่อเขาร่วมกับเพื่อนประยุกต์นำวิชาการด้านนี้มาสร้างแม่ข่ายสืบค้นข้อมูลบน อินเตอร์เน็ตบริการผู้คนภายใต้ชื่อแปลก ๆ คือ “ยาฮู” ซึ่งใช้เทคโนโลยีการสืบค้นข้อมูลของ บริษัท “อิงค์โทมิ” เป็นหลักในปัจจุบันนอกจากยาฮูแล้วยังมีผู้ให้บริการสืบค้นข้อมูลบนอินเตอร์เน็ตอีกหลายรายที่ มีความสามารถไม่ยิ่งหย่อนไปกว่ากันยกตัวอย่างเช่น “แอลตาวิสตา” “อินโฟซีก” “ฮอทบอท” “ไลน์คอส” “เอกไซท์” เป็นต้น และที่เด่นมากอีกรายคือ “เดจาส์” ซึ่งให้บริการสืบค้นข้อ สนทนาของกลุ่มสนทนาต่าง ๆ ทั่วโลกความแม่นยำและความสามารถค้นคืนความต้องการการสืบค้นที่มีความแม่นยำสูง (high precision) หรือมีความสามารถค้น คืนสูง (high recall) อาจแปรเปลี่ยนได้ตามกาละและเทศะ กล่าวคือในบางกรณีผู้ใช้งานอาจ ต้องการการสืบค้นที่มีความสามารถค้นคืนสูง ซึ่งจะพบในการสืบค้นแบบกว้าง ๆ ยกตัวอย่าง เช่นถ้าเราต้องการสืบค้นประวัติของนายกรัฐมนตรีของไทยทุกคน และอีกตัวอย่างหนึ่งที่ ต้องการการสืบค้นที่มีความแม่นยำสูงคือการสืบค้นแบบเฉพาะเจาะจง เช่นเราต้องการสืบค้น ประวัติของนายกรัฐมนตรีไทยที่เคยแสดงวิวาทะกับพระพุทธทาสเรื่อง “จิตว่าง” จะเห็นได้ว่า การสืบค้นที่ต้องการความสามารถค้นคืนสูงมีความต้องการคำสำคัญ (keyword) น้อย เช่นจาก ตัวอย่างแรกเราต้องการคำสำคัญเดียวคือคำว่า “นายกรัฐมนตรี” ก็พอเพียงในขณะที่ตัวอย่างที่ สองเราอาจต้องใช้คำสำคัญหลายคำเช่น “นายกรัฐมนตรี” “นักปราชญ์” “ปากจัด” “รักสุนัข” เป็นต้นการทำงานของระบบสืบค้นข้อมูลทั่วไปเมื่อมีความแม่นยำสูงจะมีความสามารถค้นคืน ต่ำและในทางกลับกันถ้าความสามารถค้นคืนสูงความแม่นยำจะต่ำ เพื่อแก้ปัญหานี้ระบบการ สืบค้นข้อมูลส่วนใหญ่จึงได้มีการออกแบบภาษาการสืบค้นข้อมูล เพื่อสร้างสูตรการสืบค้นที่ สามารถกำหนดเงื่อนไขการสืบค้นเช่น “และ” “หรือ” “ไม่” “ติดกัน” “รวม” “ไม่รวม” ภาษา สืบค้นนี้ทำให้ได้ระบบที่ให้ความแม่นยำและความสามารถค้นคืนสูงในเวลาเดียวกันแต่มีปัญหา ที่ความไม่เป็นมาตรฐานเดียวกันของผู้ให้บริการแต่ละรายเช่น ยาฮูใช้สัญลักษณ์ต่าง ๆ แทน สูตรการสืบค้นเช่น เครื่องหมายบวกแทนการรวม เครื่องหมายลบแทนการไม่รวมคำสำคัญใน การสืบค้น ขณะที่รายอื่นใช้ตัวย่อแทนเช่น AND OR NOT EXC ADJ เป็นต้น การใช้ภาษาธรรม ชาติจึงเป็นแนวทางหนึ่งที่มีผู้ให้ความสนใจสูงทีเดียวการประมวลผลภาษาธรรมชาติกับการสืบค้นข้อมูลเทคโนโลยีการประมวลผลภาษาธรรมชาติมีประโยชน์เกี่ยวพันกับเทคโนโลยีการสืบค้น ข้อมูลมากเนื่องจากฐานข้อมูลที่จัดเก็บในระบบการสืบค้นข้อมูลจะเป็นข้อมูลที่ใช้ภาษาธรรม ชาติอยู่แล้วไม่มีการจัดสร้างรูปแบบการจัดเก็บเป็นพิเศษแต่อย่างไร นอกจากนี้การประมวลผล ภาษาธรรมชาติมีส่วนช่วยให้ผู้ใช้งานมีความสะดวกสบายที่จะสร้างรูปแบบการสืบค้นที่ซับซ้อน โดยจะช่วยแก้ปัญหาความไม่มีมาตรฐานของภาษาสืบค้นดังกล่าวมาแล้วการประมวลผลภาษาธรรมชาติแบ่งได้เป็นหกระดับใหญ่ ๆ คือ ระดับหน่วยเสียง (Phonological) ระดับการผันเสียงเป็นคำ (Morphological) ระดับพจนานุกรม (Lexical) ระดับกฎเกณท์ (Syntactic) ระดับความหมาย (Semantic) และระดับเชิงปฏิบัติจริง (Pragmatic) ในโอกาสข้างหน้าผู้เขียนจะได้กล่าวในรายละเอียดสำหรับเทคโนโลยีด้านนี้และ ผลกระทบกับชีวิตของพวกเราสำหรับภาษาไทยมีกลุ่มนักวิจัยคนไทยทำการวิจัยการสืบค้นข้ามภาษาไทยและต่าง ประเทศได้เพื่อเพิ่มความสามารถค้นคืนในกรณีของภาษาไทย เช่นผู้ใช้ป้อนคำสำคัญว่า “สาร สนเทศ” ระบบสามารถให้ผลการสืบค้นกับเอกสารที่มีคำต่าง ๆ เหล่านี้ปรากฏอยู่คือ “ไอที” “Information Technology” เป็นต้น สืบเนื่องจากปัจจุบันการใช้ภาษาไทยทับศัพท์หรือการใช้ ร่วมกับภาษาต่างประเทศสามารถพบได้อย่างกว้างขวางในชีวิตประจำวันการจัดเก็บฐานข้อมูลและการทำดัชนีมีงานวิจัยของทั้งคนไทยและต่างชาติพบว่าในเอกสารใด ๆ ไม่ว่าจะมีขนาดใหญ่เล็กต่าง กันเพียงใดโดยทั่วไปแล้วจะมีคุณสมบัติพิเศษที่น่าสนใจคือการใช้คำศัพท์ใหม่จะเพิ่มขึ้นอย่าง รวดเร็วในตอนต้น ๆ เอกสาร และจะค่อย ๆ เพิ่มขึ้นช้าลงจนเกือบไม่เพิ่มเลยที่ตอนกลาง ๆ ไป จนถึงท้ายเอกสาร มีการทดลองใช้เอกสารภาษาไทยในชีวิตประจำวันหลาย ๆ เอกสารมีขนาด นับล้านตัวอักษรมาวิเคราะห์ดูพบว่ามีการใช้คำศัพท์ทั้งหมดเพียงแค่สามพันกว่าคำเท่านั้นและ คำที่มีความถี่ในการใช้งานสูงและต่ำมาก ๆ จะเป็นคำที่มีผลต่อเนื้อหาใจความของเอกสารน้อย เช่นคำว่า “และ” “ที่” “ก็” “the” “of” “and” “to” เป็นต้นดังนั้นในระบบการสืบค้นข้อมูลจึงมีการทำหมวดหมู่ ประเภทของข้อมูลข่าวสารรวมถึง การใช้คำที่มีผลต่อเนื้อหาใจความสูงมาทำดัชนีของข้อมูลชี้ไปที่เนื้อเอกสารจริง ๆ ที่กระจายกัน อยู่ตามแม่ข่ายข้อมูลต่าง ๆ ทั่วโลกเพื่อเพิ่มประสิทธิภาพของการสืบค้นที่รวดเร็ว คุณภาพของ ดัชนีและประเภทของข้อมูลของแม่ข่ายสืบค้นข้อมูลแต่ละที่จึงแตกต่างกันไปสรุปเครื่องมือสืบค้นข้อมูลมีประโยชน์มากกับชีวิตของเราในยุคข้อมูลข่าวสารนี้ ความเข้าใจ หลักพื้นฐานของเทคโนโลยีการสืบค้นข้อมูลช่วยให้เราสามารถใช้เครื่องมือนี้ได้อย่างมีประสิทธิ ผลและประสิทธิภาพเพื่อ งมเข็มเล่มที่พวกเราสนใจในมหาสมุทรไอทีอันกว้างใหญ่ไพศาลนี้
ทีมา http://www.geocities.com/pisitp/irtech.htm