README.md
1.92 KB
文档解析工具
从 PDF、DOCX 等文档中智能提取配置字段,自动生成计划书模板配置。
📁 文件说明
| 文件 | 说明 | 使用频率 |
|---|---|---|
parse-docs.js |
主脚本 - 文档解析和配置生成 | ⭐⭐⭐ 高频 |
smart-field-extractor.js |
智能字段提取器 - 从文档中提取表单字段 | ⭐⭐ 中频 |
product-splitter.js |
产品分割器 - 识别和分割多产品文档 | ⭐⭐ 中频 |
parse-config.js |
配置文件 - markitdown 和 AI 服务配置 | 📋 配置 |
parse-docs.test.js |
测试文件 - 单元测试 | 🧪 测试 |
QUICKSTART.md |
快速开始指南 | 📖 文档 |
🚀 使用方式
# 解析所有待处理文档
pnpm parse:docs
# 查看待处理文档列表
pnpm parse:docs:list
# 查看解析状态
pnpm parse:docs:status
# 解析指定文件
pnpm parse:docs -- --file=产品说明书.pdf
# 应用审核通过的配置
pnpm parse:docs -- --apply=计划书模版4
# 预览应用配置(不实际修改)
pnpm parse:docs -- --apply=计划书模版4 --dry-run
📖 详细文档
参见 QUICKSTART.md 了解完整的快速开始指南。
🔧 工作原理
- 扫描
docs/to-parse/目录下的待处理文档 - 使用 markitdown 将文档转换为 Markdown
- 调用 AI 服务提取配置字段
- 生成可审核的配置文件
- 审核通过后应用到
src/config/plan-templates.js
📝 支持的文档格式
- PDF (
.pdf) - Word (
.doc,.docx) - 文本 (
.txt,.md)
🤖 AI 配置
在 .env 文件中配置 AI 服务:
# markitdown 服务 URL(可选)
MARKITDOWN_URL=http://localhost:8000/convert
# AI 服务配置(用于智能字段提取)
AI_SERVICE_URL=your_ai_service_url
AI_API_KEY=your_api_key
📋 输出示例
解析后会生成:
-
docs/parsed/产品名称.json- 解析结果 -
docs/parsed/产品名称.audit.md- 审核报告