默认配置模式(使用JSON/YAML)
默认配置模式可以通过在数据项目根目录中使用 config.json 或 config.yml 文件进行配置。如果与此配置文件一起存在 .env 文件,则会加载该文件,并且其中定义的环境变量将可用于使用 ${ENV_VAR} 语法在配置文档中进行令牌替换。
例如:
# .env
API_KEY=some_api_key
# config.json
{
"llm": {
"api_key": "${API_KEY}"
}
}配置段落
input
字段
typefile|blob - 要使用的输入类型。默认值=filefile_typetext|csv - 要加载的输入数据类型。可以是text或csv。默认为textfile_encodingstr - 输入文件的编码。默认为utf-8file_patternstr - 用于匹配输入文件的正则表达式。如果处于csv模式,则默认为.*\.csv$,如果处于文本模式,则默认为.*\.txt$。source_columnstr - (仅限CSV模式)源列名。timestamp_columnstr - (仅限CSV模式)时间戳列名。timestamp_formatstr - (仅限CSV模式)源格式。text_columnstr - (仅限CSV模式)文本列名。title_columnstr - (仅限CSV模式)标题列名。document_attribute_columnslist[str] - (仅限CSV模式)要包含的其他文档属性。connection_stringstr - (仅限blob)Azure Storage连接字符串。container_namestr - (仅限blob)Azure Storage容器名称。base_dirstr - 相对于根目录读取输入的基本目录。storage_account_blob_urlstr - 要使用的存储帐户Blob URL。
llm
这是基本的LLM配置部分。其他步骤可能使用自己的LLM配置覆盖此配置。
字段
api_keystr - 要使用的OpenAI API密钥。typeopenai_chat|azure_openai_chat|openai_embedding|azure_openai_embedding - 要使用的LLM类型。modelstr - 模型名称。max_tokensint - 输出令牌的最大数量。request_timeoutfloat - 每个请求的超时时间。api_basestr - 要使用的API基本URL。api_versionstr - API版本organizationstr - 客户端组织。proxystr - 要使用的代理URL。cognitive_services_endpointstr - 认知服务的URL端点。deployment_namestr - 要使用的部署名称(Azure)。model_supports_jsonbool - 模型是否支持JSON模式输出。tokens_per_minuteint - 设置令牌每分钟的漏桶限制。requests_per_minuteint - 设置每分钟的请求漏桶限制。max_retriesint - 使用的最大重试次数。max_retry_waitfloat - 最大退避时间。sleep_on_rate_limit_recommendationbool - 是否遵守休眠建议(Azure)。concurrent_requestsint - 允许同时打开的请求数。temperaturefloat - 要使用的温度。top_pfloat - 要使用的top-p值。nint - 要生成的完成数。
parallelization
字段
staggerfloat - 线程间隔值。num_threadsint - 最大工作线程数。
async_mode
asyncio|threaded 要使用的异步模式。可以是 asyncio 或 threaded。
embeddings
字段
llm(参见LLM顶级配置)parallelization(参见Parallelization顶级配置)async_mode(参见Async Mode顶级配置)batch_sizeint - 要使用的最大批处理大小。batch_max_tokensint - 最大批处理的令牌数量。targetrequired|all - 确定要发出的嵌入集。skiplist[str] - 要跳过的嵌入。strategydict - 完全覆盖文本嵌入策略。
chunks
字段
sizeint - 每个块的最大令牌数量。overlapint - 块之间的重叠令牌数量。group_by_columnslist[str] - 在分块之前按字段对文档进行分组。strategydict - 完全覆盖分块策略。
cache
字段
typefile|memory|none|blob - 要使用的缓存类型。默认值=fileconnection_stringstr - (仅限blob) Azure存储连接字符串。container_namestr - (仅限blob) Azure存储容器名。base_dirstr - 相对于根目录的基本目录,用于写入缓存。storage_account_blob_urlstr - 要使用的存储帐户Blob URL。
storage
字段
typefile|memory|blob - 要使用的存储类型。默认值=fileconnection_stringstr - (仅限blob) Azure存储连接字符串。container_namestr - (仅限blob) Azure存储容器名。base_dirstr - 相对于根目录的基本目录,用于写入报告。storage_account_blob_urlstr - 要使用的存储帐户Blob URL。
reporting
字段
typefile|console|blob - 要使用的报告类型。默认值=fileconnection_stringstr - (仅限blob) Azure存储连接字符串。container_namestr - (仅限blob) Azure存储容器名。base_dirstr - 相对于根目录的基本目录,用于写入报告。storage_account_blob_urlstr - 要使用的存储帐户Blob URL。
entity_extraction
字段
llm(请参阅LLM顶级配置)parallelization(请参阅并行化顶级配置)async_mode(请参阅异步模式顶级配置)promptstr - 要使用的提示文件。entity_typeslist[str] - 要识别的实体类型。max_gleaningsint - 要使用的最大获取周期数。strategydict - 完全覆盖实体抽取策略。
summarize_descriptions
字段
llm(请参阅LLM顶级配置)parallelization(请参阅并行化顶级配置)async_mode(请参阅异步模式顶级配置)promptstr - 要使用的提示文件。max_lengthint - 每个摘要的最大输出令牌数量。strategydict - 完全覆盖摘要描述策略。
claim_extraction
字段
enabledbool - 是否启用索赔提取。默认值=Falsellm(请参阅LLM顶级配置)parallelization(请参阅并行化顶级配置)async_mode(请参阅异步模式顶级配置)promptstr - 要使用的提示文件。descriptionstr - 描述我们想要提取的索赔类型。max_gleaningsint - 要使用的最大获取周期数。strategydict - 完全覆盖索赔提取策略。
community_reports
字段
llm(请参阅LLM顶级配置)parallelization(请参阅并行化顶级配置)async_mode(请参阅异步模式顶级配置)promptstr - 要使用的提示文件。max_lengthint - 每个报告的最大输出令牌数量。max_input_lengthint - 生成报告时要使用的最大输入令牌数量。strategydict - 完全覆盖社区报告策略。
cluster_graph
字段
max_cluster_sizeint - 要生成的最大聚类大小。strategydict - 完全覆盖聚类图策略。
embed_graph
字段
enabledbool - 是否启用图嵌入。num_walksint - node2vec 的行走次数。walk_lengthint - node2vec 的行走长度。window_sizeint - node2vec 的窗口大小。iterationsint - node2vec 的迭代次数。random_seedint - node2vec 的随机种子。strategydict - 完全覆盖嵌入图的策略。
umap
Fields
enabledbool - 是否启用 UMAP 布局。
snapshots
Fields
graphmlbool - 生成 graphml 快照。raw_entitiesbool - 生成原始实体快照。top_level_nodesbool - 生成顶级节点快照。
encoding_model
str - 要使用的文本编码模型。默认为 cl100k_base。
skip_workflows
list[str] - 要跳过的工作流名称列表。