小说转说话人格式
“小说转说话人格式”适合用来把小说中的对白拆成“谁在说话”的结构。对于后续角色识别、角色音色匹配、逐句工作台来说,这一步通常比直接处理原文更稳。
本页目录
为什么需要先拆说话人
很多小说对白本来混在叙述段落里,人类读起来不难分辨,但系统在后续做角色识别、角色绑定和逐句生成时,如果没有清晰的说话人结构,就更容易把对白归错角色。因此先做“说话人格式”整理,本质上是在给后续流程降噪,通常可以先从规则整理工具页开始。
适合什么内容
- 人物对白较多的小说片段
- 需要把对白转成说话人标签结构的故事文本
- 准备做角色配音、角色绑定或说话人分配的原文
常见整理结果
整理后的目标通常是把对白按角色拆开,让文本更接近“谁说了什么”的结构。并不是要求把每一句都做复杂 NLP 标注,而是先把后续最关键的角色边界整理清楚,这样后面做音色匹配和角色工作流时会更顺。
输入示例 / 整理后示例
输入示例
“师父,先待俺打探一番。”悟空说着,跳至半空,手搭凉棚,向四面眺望,然后说,“师父,这方圆几十里没有人家……”
整理后示例
悟空:师父,先待俺打探一番。 旁白:悟空说着,跳至半空,手搭凉棚,向四面眺望,然后说。 悟空:师父,这方圆几十里没有人家……
和规则整理页的关系
这个页面偏专题说明,帮助理解“小说转说话人格式”为什么适合先做;真正执行整理时,还是建议从规则整理页进入,把原文先整理成标准角色分行格式,再继续做更细的角色识别与音色匹配。
推荐路径
建议先进入 规则整理工具,把原文初步整理成标准角色分行,再继续做说话人识别和角色绑定。