省token策略

核心思路是减少模型的不确定性探索和冗余输出

1. 精准提问，减少往返

提供上下文：直接粘贴相关代码片段、函数签名或错误信息，避免AI猜测或生成无关内容。
明确约束：指定“仅输出修改后的函数，不要解释”或“使用Python 3.9+，不引入第三方库”，强制精简输出。
原子化任务：将“写一个完整模块”拆解为“先写数据结构定义”“再实现核心逻辑”“最后补充类型注解”，便于分步验收，避免单次长输出。

2. 利用编辑与续写能力

锚定代码位置：许多AI编程工具支持“在光标处补全”或“选中代码后修改”，此时AI仅输出差异部分，远低于全量生成。
用占位符引导：在已有代码中插入# TODO: 添加缓存逻辑，让AI仅填充该片段，而非重写整个文件。

|工具 |续写方式 |适用场景 |---|---|---| |Cursor / Copilot |行内灰色补全，Tab 接受 |单行或小片段 Claude Code |分析上下文后生成完整函数/模块 |需要理解依赖关系的多行续写

Claude Code 的“续写”更多发生在跨文件场景——比如修改了一个类型定义，让 Claude 自动更新所有引用该类型的文件。

3. 选择高效交互模式

优先使用“编辑”而非“问答”：在Cursor、Copilot Chat等工具中，使用/edit命令直接修改文件，比在对话框中复制粘贴更省token（无需重复发送未改动的代码）。
结构化输入：用Markdown或代码块明确分隔“已有代码”与“需求描述”，减少AI解析成本。

4. 管理对话历史

开启新会话：当任务切换或上下文已长时，新开会话可避免每次请求都携带大量历史对话（尤其在长项目中）。
修剪无关内容：手动删除对话中已过时的代码版本或错误尝试，保持上下文精简。

5. 利用模型特性

选择轻量模型：在简单任务（如正则编写、JSON结构生成）中使用Claude Haiku、GPT-3.5等低开销模型。

设置输出上限：在API中合理设置max_tokens，避免模型过度解释。