文档解析工具使用指南
功能概述
文档解析工具用于将保险产品文档(PDF、DOCX)自动解析为计划书配置,支持智能识别产品类型、币种、缴费年期等信息。
快速开始
1. 查看待处理文档
npm run parse:docs:list
2. 查看配置状态
npm run parse:docs:status
输出示例:
🔧 文档解析服务配置状态:
──────────────────────────────────────────────────
📄 markitdown: ❌ 未配置
🤖 AI 服务: ❌ 未配置
──────────────────────────────────────────────────
💡 配置提示:
1. 使用 markitdown: 安装 Python 并运行 "pip install markitdown"
2. 配置 AI 服务: 设置环境变量(.env 文件)
3. 解析所有文档
npm run parse:docs
4. 解析单个文档
npm run parse:docs:file="产品说明书.pdf"
配置 AI 服务(可选)
如需启用智能解析功能,请配置以下环境变量:
方法 1: 使用 .env 文件
# 复制示例配置
cp scripts/.env.example scripts/.env
# 编辑 .env 文件,填写 API Key
vim scripts/.env
方法 2: 使用环境变量
export AI_SERVICE_TYPE=openai
export OPENAI_API_KEY=sk-your-key-here
npm run parse:docs
支持的 AI 服务
| 服务 | 说明 | 环境变量 |
|---|---|---|
| OpenAI | GPT-4/GPT-3.5 | OPENAI_API_KEY |
| Anthropic | Claude 3 Sonnet | ANTHROPIC_API_KEY |
| OpenRouter | 聚合服务 | OPENROUTER_API_KEY |
解析流程
- 文档转换:将 PDF/DOCX 转换为可读文本
- AI 解析:从文本中提取结构化配置(产品类型、币种、年期等)
-
生成代码:生成
plan-templates.js配置代码 - 更新配置:自动更新到配置文件
当前状态
- ✅ 基础功能:支持 PDF、DOCX 文本提取
- ✅ 启发式推断:根据文件名和内容推断产品类型和币种
- ⏳ AI 解析:待集成 AI 服务(需要配置 API Key)
文档位置
待解析文档放在:docs/to-parse/ 文件夹
支持格式:.pdf, .docx, .doc, .txt, .md