索引(Index)
配置(Config)
JSON/YAML(JsonYaml)

默认配置模式(使用JSON/YAML)

默认配置模式可以通过在数据项目根目录中使用 config.jsonconfig.yml 文件进行配置。如果与此配置文件一起存在 .env 文件,则会加载该文件,并且其中定义的环境变量将可用于使用 ${ENV_VAR} 语法在配置文档中进行令牌替换。

例如:

# .env
API_KEY=some_api_key

# config.json
{
    "llm": {
        "api_key": "${API_KEY}"
    }
}

配置段落

input

字段

  • type file|blob - 要使用的输入类型。默认值=file
  • file_type text|csv - 要加载的输入数据类型。可以是 textcsv。默认为 text
  • file_encoding str - 输入文件的编码。默认为 utf-8
  • file_pattern str - 用于匹配输入文件的正则表达式。如果处于csv模式,则默认为 .*\.csv$ ,如果处于文本模式,则默认为 .*\.txt$
  • source_column str - (仅限CSV模式)源列名。
  • timestamp_column str - (仅限CSV模式)时间戳列名。
  • timestamp_format str - (仅限CSV模式)源格式。
  • text_column str - (仅限CSV模式)文本列名。
  • title_column str - (仅限CSV模式)标题列名。
  • document_attribute_columns list[str] - (仅限CSV模式)要包含的其他文档属性。
  • connection_string str - (仅限blob)Azure Storage连接字符串。
  • container_name str - (仅限blob)Azure Storage容器名称。
  • base_dir str - 相对于根目录读取输入的基本目录。
  • storage_account_blob_url str - 要使用的存储帐户Blob URL。

llm

这是基本的LLM配置部分。其他步骤可能使用自己的LLM配置覆盖此配置。

字段

  • api_key str - 要使用的OpenAI API密钥。
  • type openai_chat|azure_openai_chat|openai_embedding|azure_openai_embedding - 要使用的LLM类型。
  • model str - 模型名称。
  • max_tokens int - 输出令牌的最大数量。
  • request_timeout float - 每个请求的超时时间。
  • api_base str - 要使用的API基本URL。
  • api_version str - API版本
  • organization str - 客户端组织。
  • proxy str - 要使用的代理URL。
  • cognitive_services_endpoint str - 认知服务的URL端点。
  • deployment_name str - 要使用的部署名称(Azure)。
  • model_supports_json bool - 模型是否支持JSON模式输出。
  • tokens_per_minute int - 设置令牌每分钟的漏桶限制。
  • requests_per_minute int - 设置每分钟的请求漏桶限制。
  • max_retries int - 使用的最大重试次数。
  • max_retry_wait float - 最大退避时间。
  • sleep_on_rate_limit_recommendation bool - 是否遵守休眠建议(Azure)。
  • concurrent_requests int - 允许同时打开的请求数。
  • temperature float - 要使用的温度。
  • top_p float - 要使用的top-p值。
  • n int - 要生成的完成数。

parallelization

字段

  • stagger float - 线程间隔值。
  • num_threads int - 最大工作线程数。

async_mode

asyncio|threaded 要使用的异步模式。可以是 asynciothreaded

embeddings

字段

  • llm(参见LLM顶级配置)
  • parallelization(参见Parallelization顶级配置)
  • async_mode(参见Async Mode顶级配置)
  • batch_size int - 要使用的最大批处理大小。
  • batch_max_tokens int - 最大批处理的令牌数量。
  • target required|all - 确定要发出的嵌入集。
  • skip list[str] - 要跳过的嵌入。
  • strategy dict - 完全覆盖文本嵌入策略。

chunks

字段

  • size int - 每个块的最大令牌数量。
  • overlap int - 块之间的重叠令牌数量。
  • group_by_columns list[str] - 在分块之前按字段对文档进行分组。
  • strategy dict - 完全覆盖分块策略。

cache

字段

  • type file|memory|none|blob - 要使用的缓存类型。默认值=file
  • connection_string str - (仅限blob) Azure存储连接字符串。
  • container_name str - (仅限blob) Azure存储容器名。
  • base_dir str - 相对于根目录的基本目录,用于写入缓存。
  • storage_account_blob_url str - 要使用的存储帐户Blob URL。

storage

字段

  • type file|memory|blob - 要使用的存储类型。默认值=file
  • connection_string str - (仅限blob) Azure存储连接字符串。
  • container_name str - (仅限blob) Azure存储容器名。
  • base_dir str - 相对于根目录的基本目录,用于写入报告。
  • storage_account_blob_url str - 要使用的存储帐户Blob URL。

reporting

字段

  • type file|console|blob - 要使用的报告类型。默认值=file
  • connection_string str - (仅限blob) Azure存储连接字符串。
  • container_name str - (仅限blob) Azure存储容器名。
  • base_dir str - 相对于根目录的基本目录,用于写入报告。
  • storage_account_blob_url str - 要使用的存储帐户Blob URL。

entity_extraction

字段

  • llm (请参阅LLM顶级配置)
  • parallelization (请参阅并行化顶级配置)
  • async_mode (请参阅异步模式顶级配置)
  • prompt str - 要使用的提示文件。
  • entity_types list[str] - 要识别的实体类型。
  • max_gleanings int - 要使用的最大获取周期数。
  • strategy dict - 完全覆盖实体抽取策略。

summarize_descriptions

字段

  • llm (请参阅LLM顶级配置)
  • parallelization (请参阅并行化顶级配置)
  • async_mode (请参阅异步模式顶级配置)
  • prompt str - 要使用的提示文件。
  • max_length int - 每个摘要的最大输出令牌数量。
  • strategy dict - 完全覆盖摘要描述策略。

claim_extraction

字段

  • enabled bool - 是否启用索赔提取。默认值=False
  • llm (请参阅LLM顶级配置)
  • parallelization (请参阅并行化顶级配置)
  • async_mode (请参阅异步模式顶级配置)
  • prompt str - 要使用的提示文件。
  • description str - 描述我们想要提取的索赔类型。
  • max_gleanings int - 要使用的最大获取周期数。
  • strategy dict - 完全覆盖索赔提取策略。

community_reports

字段

  • llm (请参阅LLM顶级配置)
  • parallelization (请参阅并行化顶级配置)
  • async_mode (请参阅异步模式顶级配置)
  • prompt str - 要使用的提示文件。
  • max_length int - 每个报告的最大输出令牌数量。
  • max_input_length int - 生成报告时要使用的最大输入令牌数量。
  • strategy dict - 完全覆盖社区报告策略。

cluster_graph

字段

  • max_cluster_size int - 要生成的最大聚类大小。
  • strategy dict - 完全覆盖聚类图策略。

embed_graph

字段

  • enabled bool - 是否启用图嵌入。
  • num_walks int - node2vec 的行走次数。
  • walk_length int - node2vec 的行走长度。
  • window_size int - node2vec 的窗口大小。
  • iterations int - node2vec 的迭代次数。
  • random_seed int - node2vec 的随机种子。
  • strategy dict - 完全覆盖嵌入图的策略。

umap

Fields

  • enabled bool - 是否启用 UMAP 布局。

snapshots

Fields

  • graphml bool - 生成 graphml 快照。
  • raw_entities bool - 生成原始实体快照。
  • top_level_nodes bool - 生成顶级节点快照。

encoding_model

str - 要使用的文本编码模型。默认为 cl100k_base

skip_workflows

list[str] - 要跳过的工作流名称列表。