说明:本文涉及到的演绎式知识萃取方法的详情,请参阅公众号的其他专题发文。因专题的内容较多,这里不再给出具体的链接地址。

11
知识萃取及操盘方法论痛点
这些年,做了不少的知识萃取项目。
有些单纯一点,只是单纯地编写业务事件或业务项目的案例,或者,提炼一个业务事件的可复制经验。有些就复杂一点,比如编写某个业务领域或某个岗位的工作手册。
就萃取范围的趋势而言,总体来说,局部经验的萃取需求在减少,整体性业务的知识萃取需求在上升。另外一方面,很多业务活动,前置需求就是知识萃取,比如,我做过一个项目,为一家水果销售平台设计开发一个小B上架进货选品的软件功能,这个功能可以大概率保障小B商家盈利。这个项目的核心就是深度萃取选品的方法论和选品经验数据。
总结下来,知识萃取的需求有两个很明显的趋势特征:
1、知识萃取的规模变大了。一次需要萃取的知识往往不是一个单纯的业务点,而是多个岗位或业务面。
2、知识萃取的深度增加了。萃取结果内容的实操性、有效性、落地性要求变高了。比如,上面选品的例子中,如果萃取的结果,需要直面小B商家选品,效果需要用小B商家是否大概率盈利来检验。
那现有的传统方法论是否支持知识萃取的两个需求呢?
答案是很难。从两个角度来分析。
第一个是萃取师的角度。
萃取师肩负挖掘业务专家的经验,他们现有的方法论,大部分是经验萃取,用的也是萃取的经验,基本的流程是:分析任务场景,提炼完成任务或解决问题的流程,再收集流程动作中的要点、技巧。除此之外,其他内容,本质上是一些知识包装技巧,比如,将一些解决问题的流程、归纳的某些原则等包装为各种可视化的知识模型。
这个过程中,萃取师并没有取到充分发挥挖掘知识解法的作用,很多时候,除了提供一些萃取模板外,就是一位陪伴者,提供一些情绪价值。
第二个是业务专家的角度。
客观地说,萃取成果不理想,也不能都赖到萃取师的头上,很多业务专家掌握的成功经验其实也不多,还很碎片化。真相是,一个领域中的成功经验,掌握在这个领域的知识共同体中,一个主题中的几位从业者掌握的经验其实是很有限的,而且,很多时候,他们的经验挖掘起来也很费劲。
更悲催的是,费劲挖掘出来的经验,说实话,大部分其实也很普通。
这就给我们提出了挑战,知识萃取的解法在哪里?
2
AI时代,知识萃取的合璧双剑
经过1年半左右的AI大模型的应用实践,以及,近6年的演绎式知识的研究与项目实践,我的解法方案是AI+演绎式知识萃取,两者结合起来,就是AI时代的知识萃取方法。
这个组合,不仅可以解决知识萃取的痛点问题,也可以满足日渐趋势化的知识萃取需求。
AI大语言模型,可以解决知识来源不足、以及单一业务专家实践深度和广度不够的问题。演绎式知识萃取方法,可以解决知识准确性和萃取深度的问题。
我们首先讨论第一点,下一节讨论第二点。
从知识的角度来看,AI大语言模型的底层,本质是小颗粒度的知识库,这个知识库有两个突出的特点:
1、知识量非常庞大。
据说,ChatGPT已经用完了整个人类的全部知识语料,尽管,大模型中包含的知识量是我们很难想象的,但是,我们完全可以相信,某个领域中的绝大部分人类实践经验,包括很多我们之前认为的隐性经验,都包含在这个知识库中。
我觉得,在AI时代,知识工作者应该要有这样的基本认知。
2、知识之间连接网络非常庞大。
目前的大语言模型的参数都是千亿作为基本单位,尽管参数不等同知识之间的连接,但这样的类比基本是成立的。
这就意味着,大模型有着极强的知识提取能力,只要能明确具体的领域范围,它就能进行知识的提取,而且,范围定义越准确具体,知识提取的效率和准确度越高。
基于以上的理解和洞察,AI大模型就可以充当知识萃取中可靠的知识来源,可以将它理解为一个领域中最充分的知识共同体,只要给出准确的上下文和知识框架,它就可以提供非常充分、可信度很高的知识。
这种宝贵的提取,在具体场景的萃取时,可以作为输入与业务专家进行确认、修剪。与此同时,如果业务专家掌握靠谱的萃取方法论,他完全可以自行萃取,完成对自己领域的知识管理。
3
AI时代,知识萃取的科学方法
知识是有自己的结构性的规律的。这种规律构成了AI时代的知识萃取方法论。
具体来说,知识有很多的形式和类型,每一种知识形式都有自己的结构规律,萃取一个领域的知识时,首先要识别完成一个任务或解决一个问题时的知识解法框架,其次,设计出在这样的解法框架下的知识图谱,最后,才是萃取出具体知识点的详情内容。
举一个例子。
我曾做过一个区域总经理的岗位经验萃取项目,区域总经理有一个分支任务是合理配置区域的人力职数。
这个萃取的切入点是什么?
在演绎式知识萃取中,切入点是选择恰当的知识解法框架。这是一个人力职数的分析、评估框架,用于解决区域公司人力配置问题,最合适的,应该搭建一种基于实践经验沉淀的条件要素模型。
该模型关注人数配置的维度或关键因子,通过定义配置模型的结果(主要是人效),选择人效数据较好的公司并对标同类公司,收集影响人力配置的因子和指标。经过数据调研、验证,并针对性地访谈关键人员,最终形成区域公司人力职数配置模型 。在实际应用中,能为公司合理配置人力提供科学依据,提高人力资源的利用效率。
这种知识萃取明显比一个模糊的原则和宽泛的流程要更反映业务实践的知识。
演绎式知识萃取方法,结合AI大语言模型,可以发挥更大的威力。
接下来,举一个我操盘的实际的案例来进行说明。
客户是一家生物工程科技公司,利用菌种发酵技术,生产人类营养添加剂,比如DHA藻油等。做萃取的岗位中,包含了生物检测工程师,这个岗位的关键工作就包含:优化化现有的生物检测方法、开发新的生物检查方法。
生物检测工程师需要评价各种生物检测方法的优劣,识别可能的改进方向,并在改进方向上找到具体的改进方法和行动。
这样的萃取任务技术性较强、包含有很多的琐粹数据,研发人员时间有限,人数也有限,很难提供数量足够、深度足够的内容。
那怎么办?
首先,确定知识解法框架,这种分析类的任务,比较适合用要素分析模型,具体来说,要确定各种生物检测方法的关键评价维度,并明确各个维度下面的评价指标(标准)。
其次,在这个基础之上设计知识点的详情和绩效工具。
比如,绩效工具包含:
1、每一个维度的评价指标以及每一个指标在一般生产环境中的数据正常范围(benchmark)。
2、各种生物检测方法中各种指标出现的可能偏差以及可行的改进方向、改进方法。
接下来,就可以设计提示词,让大模型针对性地输出内容,如绩效工具部分的内容,示例如下(部分示意):


最后,与资深的实践专家进行确认和情景化修剪、补充一些内容。这样的萃取结果就能做到深度、广度同时兼顾,还能大幅度节约业务专家的投入,大幅度提高萃取的效率和质量。
最后总结一下:
1、AI时代,AI+传统培训将对传统培训带来巨大冲击,现有的方法论需要升维,而不是利用AI对二维的工具进行修补;
2、知识萃取领域,AI+演绎式知识萃取,可以是一个可验证的升维之路。