web-scraping

ホーム / タグ一覧 / web-scraping

1件の記事

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systemsの紹介

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systemsの紹介

2024年11月16日

HtmlRAGの論文を詳細解説。従来のRAGシステムがプレーンテキストを使用するのに対し、HTML構造を保持することで質問応答の精度を向上させる新手法。HTMLクリーニング、ブロックツリー構築、HTMLプルーニングの3段階プロセスと実装例を紹介。トークン数を80,000から300に削減しながら構造情報を保持し、WebベースのRAGシステムに革新をもたらします。

llm rag html