google / langextract 从非结构化文本中提取结构化信息
LangExtract是Google于2025年开源的Python库,能基于LLM从非结构化文本中提取结构化信息,支持精准溯源、可控输出、长文档处理与多模型适配,无需微调即可快速落地垂直场景。以下是核心信息与使用要点: 一、核心定位与优势 维度 说明 核心目标 连接LLM与结构化数据需求,解决传统方案结果不可靠、难溯源、长文档乏力、跨域适配成本高等痛点 关键优势 1. 精确来源锚定:每条结果绑定原文起止字符偏移,支持高亮追溯与审计2. 可控结构化输出:通过少样本示例强制遵循schema,禁止改写或增删字段3. 长文档优化:分块、并行、多轮提取,适配百万token级上下文4. 交互式可视化:一键生成HTML,直观校验数千条标注5. 多模型兼容:支持Gemini等云模型及Ollama对接的本地开源LLM6. 零微调适配:用自然语言指令+少量示例快速适配医疗、法律等领域 授权与环境 Apache 2.0开源;Python ≥3.10;依赖LLM API或本地部署能力 二、工作流程 […]