省token策略
核心思路是减少模型的不确定性探索和冗余输出
1. 精准提问,减少往返
- 提供上下文:直接粘贴相关代码片段、函数签名或错误信息,避免AI猜测或生成无关内容。
- 明确约束:指定“仅输出修改后的函数,不要解释”或“使用Python 3.9+,不引入第三方库”,强制精简输出。
- 原子化任务:将“写一个完整模块”拆解为“先写数据结构定义”“再实现核心逻辑”“最后补充类型注解”,便于分步验收,避免单次长输出。
2. 利用编辑与续写能力
- 锚定代码位置:许多AI编程工具支持“在光标处补全”或“选中代码后修改”,此时AI仅输出差异部分,远低于全量生成。
- 用占位符引导:在已有代码中插入# TODO: 添加缓存逻辑,让AI仅填充该片段,而非重写整个文件。
|工具 |续写方式 |适用场景
|---|---|---|
|Cursor / Copilot |行内灰色补全,Tab 接受 |单行或小片段
Claude Code |分析上下文后生成完整函数/模块 |需要理解依赖关系的多行续写
Claude Code 的“续写”更多发生在跨文件场景——比如修改了一个类型定义,让 Claude 自动更新所有引用该类型的文件。
3. 选择高效交互模式
- 优先使用“编辑”而非“问答”:在Cursor、Copilot Chat等工具中,使用/edit命令直接修改文件,比在对话框中复制粘贴更省token(无需重复发送未改动的代码)。
- 结构化输入:用Markdown或代码块明确分隔“已有代码”与“需求描述”,减少AI解析成本。
4. 管理对话历史
- 开启新会话:当任务切换或上下文已长时,新开会话可避免每次请求都携带大量历史对话(尤其在长项目中)。
- 修剪无关内容:手动删除对话中已过时的代码版本或错误尝试,保持上下文精简。
5. 利用模型特性
- 选择轻量模型:在简单任务(如正则编写、JSON结构生成)中使用Claude Haiku、GPT-3.5等低开销模型。
设置输出上限:在API中合理设置max_tokens,避免模型过度解释。