You need to sign in or sign up before continuing.
Name Last Update
..
.env.example Loading commit data...
README.md Loading commit data...
parse-config.js Loading commit data...
parse-docs.js Loading commit data...
parse-docs.test.js Loading commit data...
product-splitter.js Loading commit data...
smart-field-extractor.js Loading commit data...

文档解析工具

从 PDF、DOCX 等文档中智能提取配置字段,自动生成计划书模板配置。

📁 文件说明

文件 说明 使用频率
parse-docs.js 主脚本 - 文档解析和配置生成 ⭐⭐⭐ 高频
smart-field-extractor.js 智能字段提取器 - 从文档中提取表单字段 ⭐⭐ 中频
product-splitter.js 产品分割器 - 识别和分割多产品文档 ⭐⭐ 中频
parse-config.js 配置文件 - markitdown 和 AI 服务配置 📋 配置
parse-docs.test.js 测试文件 - 单元测试 🧪 测试
QUICKSTART.md 快速开始指南 📖 文档

🚀 使用方式

# 解析所有待处理文档
pnpm parse:docs

# 查看待处理文档列表
pnpm parse:docs:list

# 查看解析状态
pnpm parse:docs:status

# 解析指定文件
pnpm parse:docs -- --file=产品说明书.pdf

# 应用审核通过的配置
pnpm parse:docs -- --apply=计划书模版4

# 预览应用配置(不实际修改)
pnpm parse:docs -- --apply=计划书模版4 --dry-run

📖 详细文档

参见 QUICKSTART.md 了解完整的快速开始指南。

🔧 工作原理

  1. 扫描 docs/to-parse/ 目录下的待处理文档
  2. 使用 markitdown 将文档转换为 Markdown
  3. 调用 AI 服务提取配置字段
  4. 生成可审核的配置文件
  5. 审核通过后应用到 src/config/plan-templates.js

📝 支持的文档格式

  • PDF (.pdf)
  • Word (.doc, .docx)
  • 文本 (.txt, .md)

🤖 AI 配置

.env 文件中配置 AI 服务:

# markitdown 服务 URL(可选)
MARKITDOWN_URL=http://localhost:8000/convert

# AI 服务配置(用于智能字段提取)
AI_SERVICE_URL=your_ai_service_url
AI_API_KEY=your_api_key

📋 输出示例

解析后会生成:

  • docs/parsed/产品名称.json - 解析结果
  • docs/parsed/产品名称.audit.md - 审核报告