Share

รู้จักกับเทคนิค Reranking model ตัวช่วยสำคัญของระบบสืบค้นข้อมูลภายในองค์กร

เราอยู่ในยุคของโมเดลภาษาขนาดใหญ่ หรือ LLM นับตั้งแต่ OpenAI เปิดตัวโมเดล GPT เราได้เห็นการนำ LLM ไปประยุกต์ใช้งานในหลากหลายรูปแบบ เช่น ระบบค้นหาอัจฉริยะ ระบบการจัดการความรู้ แชตบอต และเครื่องมือแปลภาษาอัตโนมัติ ซึ่งแต่ละรูปแบบการใช้งานนี้ต่างขับเคลื่อนด้วยโมเดล LLM เป็นหลักทั้งสิ้น

โดยที่การนำ LLM ไปประยุกต์ใช้งานในรูปแบบต่างๆ นั้นต้องใช้ข้อมูลเป็นจำนวนมาก ซึ่งทำให้ผู้ใช้งานจำเป็นต้องค้นหาความเหมือน และนำมาจัดลำดับผลลัพธ์ก่อนนำไปใช้ในการประมวลผล โดยวิธีพื้นฐานและที่ใช้งานทั่วไปคือการค้นหาความเหมือนโดยใช้ Cosine similarity ระหว่างเวกเตอร์สองชุด แต่วันนี้ AIGEN จะขอแนะนำวิธีใหม่ที่เรียกว่า Reranking model

ก่อนที่เราจะไปเจาะลึกถึงการทำ Reranking model ที่ AIGEN ใช้เพื่อเพิ่มความแม่นยำ และประสิทธิภาพของบริการโซลูชัน AI ของเรา เราจำเป็นต้องเข้าใจประวัติของการจัดอันดับกันก่อน โดยที่เราจะพาไปสำรวจการพัฒนาจากการค้นหาข้อความแบบเต็มด้วย BM25 สู่การค้นหาด้วยเวกเตอร์ และสุดท้ายคือการทำ Reranking models รวมถึงเราจะสรุปด้วยการเปรียบเทียบตัวชี้วัดของแต่ละวิธี โดยเน้นถึงข้อดีและข้อเสียของแต่ละวิธีเพื่อให้ธุรกิจได้เข้าใจถึงประสิทธิภาพของการทำงานในแต่ละวิธีได้ดีมากยิ่งขึ้น

เทคนิคการทำ Reranking model

วิธีที่นิยมใช้สำหรับเทคนิคการทำ Ranking

เทคนิคการทำ Ranking หรือการจัดอันดับมีบทบาทสำคัญในการสืบค้นข้อมูล และการประมวลผลภาษาธรรมชาติ โดยวิธีที่นิยมใช้กันมากที่สุด ได้แก่

  1. Full text search BM25

เป็นฟังก์ชันการจัดอันดับเชิงความน่าจะเป็นที่ใช้ในการประเมินความเกี่ยวข้องของเอกสารกับคำค้นหาที่ผู้ใช้งานพิมพ์เข้ามา BM25 (Best Matching 25) เป็นการพัฒนาต่อยอดจากโมเดลที่มีก่อนหน้านี้ และได้มีการนำไปใช้งานกันอย่างแพร่หลายในระบบค้นหาข้อมูล หรือ Search engine เนื่องจากประสิทธิภาพในการทำงานที่ดี และใช้งานง่าย

  1. Vector Similarity

วิธีนี้แสดงเอกสารและคำค้นหาในรูปแบบของ เวกเตอร์ จาก high-dimensional space โดยคำนวณความคล้ายคลึงระหว่างเอกสารและคำค้นหาโดยใช้เมตริกต่างๆ เช่น cosine similarity หรือ dot product วิธีการนี้มีประโยชน์อย่างยิ่งเมื่อต้องการจัดการกับความหมายเชิงความหมายมากกว่าการจับคู่คำสำคัญเพียงอย่างเดียว มักใช้วิธีการเช่น การสร้างเวกเตอร์แบบ TF-IDF หรือเทคนิคขั้นสูงกว่าเช่น word embeddings (เช่น Word2Vec, GloVe) เพื่อสร้างการแสดงผล เวกเตอร์เหล่านี้

  1. Reranking method

เป็นวิธีแบบสองขั้นตอนที่ปรับปรุงผลลัพธ์จากการสืบค้นในครั้งแรก โดยในขั้นแรกจะใช้วิธีที่เร็วกว่า เช่น BM25 หรือความคล้ายคลึงกันของเวกเตอร์ (vector similarity) ในการดึงชุดเอกสารที่เป็นตัวเลือก จากนั้นจะใช้โมเดลที่มีความซับซ้อนมากขึ้น โดยมักจะอ้างอิงกับโมเดลภาษาขนาดใหญ่ เช่น BERT ในการจัดอันดับใหม่ให้กับเอกสารตัวเลือกเหล่านี้ วิธีนี้เป็นการผสมผสานประสิทธิภาพของการสืบค้นเบื้องต้นเข้ากับความแม่นยำของโมเดลขั้นสูง ทำให้สามารถตัดสินความเกี่ยวข้องได้อย่างละเอียดอ่อนยิ่งขึ้น และวิธีนี้ตอบโจทย์ และมีประสิทธิภาพอย่างยิ่งในการจับความสัมพันธ์ที่ซับซ้อนระหว่างคำค้นหา และเอกสาร แต่อาจต้องใช้ทรัพยากรในการประมวลผลมากขึ้นด้วยเช่นกัน

  1. Hybrid Approaches

เป็นวิธีที่ผสมผสานเทคนิคการจัดอันดับหลายแบบเข้าด้วยกันเพื่อใช้ประโยชน์จากจุดแข็งของแต่ละวิธี ตัวอย่างเช่น ระบบอาจใช้ BM25 สำหรับการสืบค้นครั้งแรก ตามด้วยการตรวจสอบความคล้ายคลึงกันของเวกเตอร์ และสุดท้ายเป็นขั้นตอนการจัดอันดับใหม่ด้วย Machine learning วิธีการแบบผสมผสานนี้สามารถให้ผลลัพธ์ที่มีคุณภาพ และแม่นยำมากขึ้นสำหรับคำค้นหา และคอลเลกชันเอกสารประเภทต่าง ๆ โดยมักจะมีประสิทธิภาพที่ดีกว่าใช้วิธีใดวิธีหนึ่งเพียงอย่างเดียวด้วยการปรับสมดุลระหว่างความรวดเร็ว และความแม่นยำ

แต่ละวิธีมีข้อดี และข้อจำกัดที่แตกต่างกันออกไป และการเลือกใช้งานนั้นขึ้นอยู่กับความต้องการเฉพาะของแต่ละธุรกิจ หรือหน้าที่งาน ลักษณะของข้อมูล และทรัพยากรการประมวลผลที่มีอยู่ ในส่วนถัดไปเราจะมาเจาะลึกถึงแต่ละเทคนิค โดยสำรวจกลไกในการทำงาน การประยุกต์ใช้งาน และการเปรียบเทียบประสิทธิภาพของแต่ละวิธี

กลไลการทำงานของแต่ละวิธีในการทำ Ranking

1. Full text search BM25

BM25 (Best Matching 25) เป็นฟังก์ชันการจัดอันดับที่ใช้กันอย่างแพร่หลายในระบบการค้นหาข้อความเต็มรูปแบบ ซึ่งออกแบบมาเพื่อประเมินความเกี่ยวข้องของเอกสารกับคำที่ใช้ในการค้นหา พัฒนาขึ้นจากการปรับปรุงจากโมเดลความน่าจะเป็นในรุ่นก่อน ๆ ทำให้ BM25 ได้กลายเป็นรูปแบบมาตรฐานในด้านการสืบค้นข้อมูลเนื่องจากประสิทธิภาพในการทำงาน และใช้งานง่ายเมื่อเทียบกับวิธีอื่น ๆ โดย BM25 ทำงานบนหลักการของความถี่ของคำ และความถี่ผกผันของเอกสาร (TF-IDF) แต่ในขณะเดียวกันมีการปรับแต่งที่สำคัญเพื่อแก้ไขข้อจำกัดบางประการของโมเดล TF-IDF

อัลกอริทึม BM25 คำนวณคะแนนความเกี่ยวข้องสำหรับเอกสารแต่ละฉบับตามคำค้นหาที่มีอยู่ โดยจะพิจารณาจากสามปัจจัยหลัก ได้แก่ ความถี่ของคำ (ความถี่ที่คำค้นหาปรากฏในเอกสาร), ความถี่ผกผันของเอกสาร (ความหายาก หรือความแพร่หลายของคำในเอกสารทั้งหมด) และความยาวของเอกสาร BM25 ใช้ฟังก์ชันการอิ่มตัวกับความถี่ของคำ ซึ่งหมายความว่าผลกระทบของคำที่ซ้ำกันจะลดลงหลังจากถึงจุดหนึ่งเพื่อป้องกันไม่ให้เอกสารที่มีความยาวมาก หรือการเติมคำสำคัญที่จะทำให้การจัดอันดับผิดเพี้ยนไปได้ นอกจากนี้ยังทำการปรับคะแนนตามความยาวของเอกสาร เพื่อช่วยให้เอกสารที่สั้น และกระชับมากขึ้นไม่ได้รับการลงโทษอย่างไม่เป็นธรรมเมื่อเปรียบเทียบกับเอกสารที่มีความยาวมากกว่า

2. Vector Similarity

ความคล้ายคลึงกันของเวกเตอร์ หรือ Vector similarity เป็นแนวคิดพื้นฐานในด้านการสืบค้นข้อมูลและการประมวลผลภาษาธรรมชาติที่ใช้เพื่อวัดความคล้ายคลึงกันระหว่างเอกสาร หรือระหว่างคำค้นหากับเอกสาร โดยในวิธีนี้ข้อความจะถูกแปลงเป็นเวกเตอร์เชิงตัวเลขในพื้นที่ที่มีมิติสูง โดยที่แต่ละมิติมักจะใช้แทนคำ หรือนิยามเชิงความหมาย ความคล้ายคลึงระหว่างเวกเตอร์เหล่านี้จะถูกนำไปคำนวณโดยการใช้เมตริกต่าง ๆ โดยที่ความคล้ายคลึงกันของโคไซน์เป็นหนึ่งในเมตริกที่นิยมใช้กันมากที่สุด

กระบวนการสร้างเวกเตอร์เหล่านี้ได้พัฒนาขึ้นอย่างมากตามกาลเวลา วิธีแบบดั้งเดิม เช่น TF-IDF (Term Frequency-Inverse Document Frequency) จะสร้างเวกเตอร์ที่กระจัดกระจายตามการเกิดขึ้นของคำ ในขณะที่เทคนิคขั้นสูงจะใช้การฝังคำที่หนาแน่น เช่น เวกเตอร์ที่สร้างโดย Word2Vec, GloVe หรือ BERT ซึ่งจะสามารถจับความสัมพันธ์เชิงความหมายระหว่างคำได้ การแทนค่าที่หนาแน่นเหล่านี้ช่วยให้การเปรียบเทียบความคล้ายคลึงกันมีความละเอียดอ่อนมากขึ้น ซึ่งมักจะมีประสิทธิภาพที่ดีกว่าการจับคู่ตามเล็กซิคัลสำหรับงานบางประเภท เช่น การดึงข้อมูลจากเอกสาร หรือการตอบคำถาม

หนึ่งในข้อได้เปรียบที่สำคัญของวิธีความคล้ายคลึงกันของเวกเตอร์ คือความสามารถในการจับความคล้ายคลึงเชิงความหมายแม้จะไม่มีการจับคู่คำที่ตรงกัน การทำเช่นนี้ทำให้วิธีการเหล่านี้มีประสิทธิภาพโดยเฉพาะในการจัดการกับคำพ้องความหมาย แนวคิดที่เกี่ยวเนื่องกัน และแม้แต่การสืบค้นข้อมูลข้ามภาษา อย่างไรก็ตามความมีประสิทธิภาพของความคล้ายคลึงของเวกเตอร์ขึ้นอยู่กับคุณภาพของการแทนค่าเวกเตอร์และเมตริกความคล้ายคลึงที่เลือก ดังนั้น การวิจัยอย่างต่อเนื่องในด้านนี้จึงมุ่งเน้นไปที่การพัฒนาเทคนิคการฝังคำที่ซับซ้อนยิ่งขึ้น และการสำรวจมาตรการความคล้ายคลึงทางเลือกเพื่อปรับปรุงประสิทธิภาพในการดึงข้อมูล

3. Reranker

วิธีการจัดอันดับใหม่ หรือ Reranker นั้นเป็นส่วนสำคัญในระบบการสืบค้นข้อมูล (IR) สมัยใหม่ โดยเฉพาะอย่างยิ่งในระบบที่ใช้โมเดลการเรียนรู้เชิงลึก (Deep learning) โดยทำงานเป็นส่วนหนึ่งของกระบวนการดึงข้อมูลแบบสองขั้นตอน ในขั้นแรก ระบบการดึงข้อมูลเริ่มต้น (เช่น BM25 หรือวิธีการดึงข้อมูลที่หนาแน่น) จะให้รายการเอกสารหรือข้อความที่เป็นตัวเลือก จากนั้นโมเดล Reranking จะทำการปรับปรุงรายการเริ่มต้นนี้ในขั้นที่สอง โดยมีเป้าหมายเพื่อเพิ่มความเกี่ยวข้องของผลลัพธ์ที่ดีที่สุด

การทำ Reranking นั้นมักใช้โมเดลที่มีความซับซ้อนมากขึ้น ซึ่งมักอิงกับโมเดลภาษาขนาดใหญ่ที่ได้รับการฝึกฝนล่วงหน้า เช่น BERT, T5 หรือเวอร์ชันหลายภาษา เช่น mT5 และ mMiniLM โมเดลเหล่านี้ ซึ่งเรียกว่าโมเดลข้ามการเข้ารหัส จะใช้ทั้งคำค้น และข้อความที่ดึงมาแต่ละฉบับเป็นข้อมูลนำเข้าและสร้างคะแนนความเกี่ยวข้อง ซึ่งช่วยให้สามารถจับความสัมพันธ์เชิงความหมายที่ซับซ้อนระหว่างคำค้นหา และข้อความได้มากกว่าการจับคู่ตามเล็กซิคัล ความสามารถ และประสิทธิภาพของโมเดลเหล่านี้นั้นมาพร้อมกับค่าใช้จ่ายในการประมวลผลสูง ซึ่งเป็นเหตุผลว่าทำไมจึงนำมาใช้เฉพาะกับเอกสารที่ดึงมาเริ่มต้นแค่บางส่วน (มักจะเป็น 1000 อันดับแรก) แทนที่จะใช้กับคอร์ปัสทั้งหมด

ประสิทธิภาพการทำงานของโมเดล Reranking จะขึ้นอยู่กับคุณภาพ และปริมาณของข้อมูลที่เทรนมาเป็นอย่างมาก โมเดลเหล่านี้มักจะถูกปรับแต่งให้เหมาะสมกับชุดข้อมูลที่มีการติดป้ายกำกับซึ่งประกอบด้วยคำค้น และตัวอย่างเอกสารที่เกี่ยวข้อง ชุดข้อมูล MS MARCO และเวอร์ชันหลายภาษา mMARCO เป็นตัวเลือกยอดนิยมสำหรับวัตถุประสงค์นี้เนื่องจากมีขนาดใหญ่ และมีความหลากหลายของข้อมูล การทดลองได้แสดงให้เห็นว่าโมเดล Reranking เมื่อได้รับการฝึกฝนอย่างเหมาะสมแล้วนั้นสามารถยกระดับประสิทธิภาพในการดึงข้อมูลได้อย่างมีนัยสำคัญในหลากหลายภาษา แม้ในสถานการณ์แบบ zero-shot ที่มีการใช้กับภาษาที่ไม่เคยเห็นระหว่างการปรับแต่งมาก่อน

กลไกการทำงานของการจัด Ranking ในแต่ละแบบ

เปรียบเทียบข้อจำกัดของวิธีการทำ Ranking ในแต่ละรูปแบบ

ในขณะที่แต่ละวิธีการของการทำ Reranking นั้นมีข้อดีที่แตกต่างกันออกไป ทำให้เป็นสิ่งที่สำคัญที่เราจะต้องเข้าใจว่าไม่ได้มีวิธีใดวิธีหนึ่งที่สามารถนำใช้ได้กับทุกโซลูชัน เราจะมาสรุปข้อดี และข้อจำกัดของแต่ละวิธี และพูดคุยถึงเหตุผลที่ทำไมวิธีการแบบผสมผสานจึงเป็นวิธีที่มีประสิทธิภาพมากที่สุด

MethodSpeedAccuracySemantic UnderstandingScalabilityTraining Required
BM25FastModerateLowHighNo
Vector SimilarityModerateGoodHighModerateDepends on embedding
RerankingSlowExcellentHighLow-ModerateYes
test set (article)countbm25multilingual-e5-large-instructAIGEN reranker
airesearch55784.92%85.34%91.50%
tyqida(49682.18%82.41%80.52%
iappwiki71184.80%75.34%88.70%
176484.10%80.49%87.28%

1. BM25

  • มีปัญหาในความเข้าใจเชิงความหมาย และคำพ้องความหมาย
  • อาจมีความผิดพลาดในกรณีที่เอกสารที่มีความเกี่ยวข้องกันแต่ใช้ศัพท์ที่แตกต่างกัน

2. Vector Similarity

  • คุณภาพจะขึ้นอยู่กับวิธีการฝังคำที่เลือกใช้ค่อนข้างมาก
  • อาจมีค่าใช้จ่ายในการประมวลผลสูงสำหรับการดึงข้อมูลขนาดใหญ่
  • อาจมีปัญหากับคำที่หายาก หรือคำที่อยู่นอกเหนือจากคำศัพท์ที่มีอยู่

3. Reranking

  • ต้องใช้ทรัพยากรการประมวลผลสูง ไม่เหมาะสำหรับการใช้งานแบบเรียลไทม์กับชุดข้อมูลขนาดใหญ่
  • ต้องการข้อมูลที่ได้รับการเทรนที่มีคุณภาพสูงเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
  • อาจทำให้เกิดความล่าช้าในกระบวนการดึงข้อมูล

เนื่องจากข้อจำกัดเหล่านี้ ทำให้ระบบการสืบค้นข้อมูลสมัยใหม่หลายระบบจึงเลือกใช้วิธีการแบบผสมผสานที่รวมหลายวิธีการทำ Reranking เข้าด้วยกัน และนี่คือเหตุผลว่าทำไม :

  1. การปรับสมดุลระหว่างความรวดเร็ว และความแม่นยำ
    • ใช้วิธีที่รวดเร็ว เช่น BM25 สำหรับการดึงข้อมูลขั้นเริ่มต้น
    • ใช้ความคล้ายคลึงกันของเวกเตอร์ หรือการทำ Reranking กับชุดผลลัพธ์ที่เล็กลง
  2. การใช้ประโยชน์จากจุดแข็งของแต่ละวิธี
    • ใช้ BM25 สำหรับจัดการกับการจับคู่ที่ตรงกัน และคำที่หายาก
    • ใช้ Vector similarity สำหรับจับความสัมพันธ์เชิงความหมาย
    • ใช้การทำ Reranking สำหรับการตัดสินความเกี่ยวข้องที่มีความละเอียด
  3. ความสามารถในการปรับให้เข้ากับประเภทของคำค้นหาที่แตกต่างกัน
    • หากเป็นคำค้นหาที่ง่าย และไม่ซับซ้อนสามารถใช้ BM25 เพียงอย่างเดียวได้
    • สำหรับคำค้นหาที่มีความซับซ้อนสามารถใช้ประโยชน์จากความเข้าใจเชิงความหมายของ Vector similarity และการทำ Reranking ได้
  4. การขยายขนาด
    • วิธีการแบบผสมผสาน หรือ Hybrid สามารถออกแบบให้ปรับขนาดได้อย่างมีประสิทธิภาพโดยการใช้วิธีที่ต้องใช้ทรัพยากรมากขึ้นเฉพาะเมื่อจำเป็นเท่านั้น

ปรึกษา AIGEN เพื่อออกแบบโซลูชันที่ตอบโจทย์กับธุรกิจ

ในขณะที่วิธีการแบบไฮบริดนั้นทำให้เกิดเป็นโครงสร้างสำหรับการจัดอันดับนั้นมีประสิทธิภาพเป็นอย่างมาก การผสมผสาน และการกำหนดค่าที่เหมาะสมที่สุดของวิธีการต่าง ๆ อาจแตกต่างกันเป็นอย่างมากขึ้นอยู่กับ Use case การใช้งานเฉพาะของแต่ละธุรกิจ ลักษณะของข้อมูล และความต้องการด้านประสิทธิภาพ ซึ่งในส่วนนี้การปรึกษาผู้เชี่ยวชาญด้าน AI อย่าง AIGEN จะช่วยให้ให้ธุรกิจทำงานได้ง่ายมากยิ่งขึ้น เนื่องจาก AIGEN สามารถตอบโจทย์การทำงานของธุรกิจได้ดังต่อไปนี้

  • ออกแบบโครงสร้างระบบแบบไฮบริดที่ตอบโจทย์กับแต่ละธุรกิจ
  • วิเคราะห์ข้อมูลของธุรกิจเพื่อให้คำแนะนำในการเลือกวิธีการใช้งานที่ดีที่สุด
  • ปรับแต่งโมเดลให้ตอบโจทย์กับความรู้เฉพาะของธุรกิจ
  • ดำเนินการปรับ และขยายโซลูชันสำหรับการนำไปใช้งานในวงกว้าง
  • ตั้งค่าระบบการปรับปรุงอย่างต่อเนื่องโดยอ้างอิงจากความคิดเห็นของผู้ใช้งาน

ด้วยการนำวิธีการแบบไฮบริดมาใช้งานร่วมกับการปรึกษาผู้เชี่ยวชาญของเราจะทำให้องค์กรสามารถสร้างระบบการจัดอันดับที่ทั้งทรงพลัง และนำไปใช้งานได้จริง อีกทั้งทำให้ธุรกิจก้าวข้ามผ่าน และรับมือกับข้อจำกัดของวิธีการแต่ละแบบ และบรรลุประสิทธิภาพสูงสุดสำหรับแต่ละ Use case การใช้งานได้ดีมากยิ่งขึ้น ติดต่อเพื่อพูดคุย และปรึกษากับผู้เชี่ยวชาญของเราได้ที่นี่

AIGEN Live chat