ホーム / タグ一覧 / web-scraping
1件の記事
2024年11月16日
HtmlRAGの論文を詳細解説。従来のRAGシステムがプレーンテキストを使用するのに対し、HTML構造を保持することで質問応答の精度を向上させる新手法。HTMLクリーニング、ブロックツリー構築、HTMLプルーニングの3段階プロセスと実装例を紹介。トークン数を80,000から300に削減しながら構造情報を保持し、WebベースのRAGシステムに革新をもたらします。