微资讯！如何让人工智能「不作恶」，为此我们和清华大学教授聊了4个小时

2023-03-07 18:14:04来源：36kr

如何与AI和谐共处，是摆在我们面前严峻且复杂的问题

ChatGPT的热浪席卷全球，当人们在讨论AI有多强大的同时，也会关注AI的“可怕之处”——一方面源于技术本身，人工智能会出现“幻觉”，就是我们所说的“一本正经的胡说八道”。另外一方面，源于人类的“滥用”——侵犯知识产权、传播虚假信息、违规使用数据等等。如何让人类与AI更和谐美好地共处，是摆在我们面前越来越严峻且复杂的问题。本期为《AIGC未来指北》系列内容第三期，我们和清华的教授聊了将近4个小时，请他分享了人工智能治理中，关于弱势群体保护、知识产权、及数据治理等最受关注的几个问题，下文为对话精华内容整理。

划重点

● 保护自身辨别能力不足的弱势群体，研发AI产品的平台要做好“守门人”的工作，一方面在产品上标注“识别标记”，如数字水印等，另外一方面，要让产品使用轨迹可追溯，责任能落实到人。

(资料图片仅供参考)

●对待新技术的发展，敏捷治理的思路是，在可控范围内容让“领先用户”先顺畅地进来，去体验；同时在公测阶段就考虑到“治理的边界性问题”。

●近日，美欧达成了“人工智能促进公共利益行政协议”，值得注意的是，美欧双方此次在AI领域的合作并不以数据共享为前提，双方在数据流通上仍有所保留。“数据不动，联合建模”，有可能成为未来各国在数据领域合作的新范式。

01 破解“克林格里奇困境”，要靠更敏捷的治理思路

Q1：如何降低利用 AI 传播虚假信息和敏感信息的风险?一旦出现虚假信息如何鉴别，并降低对大众的影响?

梁正：《互联网信息服务深度合成管理规定》已经2022年11月3日国家互联网信息办公室2022年第21次室务会议审议通过，并自2023年1月10日起施行。另外，《互联网信息服务算法推荐管理规定》已经2021年11月16日国家互联网信息办公室2021年第20次室务会议审议通过，并自2022年3月1日起施行。当前国内算法治理的框架已较为清晰，[1]但人工智能产业发展尚在早期，相关规定怎样去落实，也还有很多问题需要解决。在人工智能，特别是机器学习领域，最典型的特征是不存在放之四海而皆准的通用解决方案。针对AI传播虚假信息这件事，要分层来看：

①目前ChatGPT只是在公测阶段，大家使用它，大部分也都是娱乐性的聊天，它的回应到底有多靠谱，可能并没有太多人去认真追究，顶多会调侃一句”它在一本正经地胡说八道“。

②未来，当ChatGPT真正被使用到专用场景的时候，比如法律服务、金融服务的时候，真实性、严谨性问题就变得特别重要。

③但是，往往在非专用场景下，大家不太关注它的严谨性和真实性，警惕性放松，更容易被AI迷惑。这时候怎么办？我认为还是要把责任归因到具体的人。首先是使用者，使用了AI的人，应该选择标识出来，这样，看到AI生成内容的人，就可以选择相信或者不相信。

另外，对一些老年人、未成年人，自身的辨别能力不足，这时候，不仅仅是使用者，也要对服务的提供方（平台方），提出具体的要求，从我的平台生成的内容，是需要有明确的标识的，平台要做好“守门人”的工作。就好像现在的互联网电商平台，我们把“打假”的责任也给到了平台方，指望用户去打假是不现实的。

既然平台提供了自动化的服务，就有义务去帮助用户鉴别和防范。之前网信办强调“要压实互联网主体责任”，这句话落实的一个点就是，当大平台“手中有矛”的时候，更要落实自己的责任。我们看到国外大公司对这点十分看重，我们能注意到，当有新的技术诞生的时候，其实并不需要出台一个专门的规定去约束这种新技术或新产品。因为国外的法律体系中，如果某个公司的产品出现问题，这个公司肯定是第一责任人。

Q2：从AI公司的角度来讲，如何把好第一道关？

梁正：对公司来讲，最佳解决方案是在产品上标注“识别标记”，数字水印可能是其中一个解决方案，还可以有其它的办法，核心是对平台产生的内容做标注：首先可以识别这条内容是AI生成的、并不是人类创作的；另外，可以识别这条内容是在哪个平台生成的，由哪个用户生成并传播出去的。这样，有清晰的追溯链条，就能更清晰地定义责任人。我们看到OpenAI实际上已经在这样做了，推出了AI识别的工具，所谓的“用魔法打败魔法”。

OpenAI针对内容的识别并作出判断，图源：网络

Q3、新技术发展初期，如何破解“科林格里奇困境”?监管政策如何在确保新技术发展空间的同时，有效降低风险?

梁正：科林格里奇困境是指，在新技术发展的初期，当问题还没出现时，你无法预见它会带来怎样的问题，但是问题出现以后再去解决又太晚。历次我们经历新技术的爆发，都会碰到这个问题。

我们现在的解决办法应该聚焦在“对新技术有没有更敏捷的治理思路”？新技术在实验和推广过程中，可以先控制在可控的范围内，不要一下子大范围铺开，比如金融领域已经在采用的沙箱监管、自动驾驶领域的先行实验区。以前我们很少首先考虑到商业价值，一般更先讲到“新技术到底有什么危害”。但敏捷治理的思路是，应该让所谓的“领先用户”先顺畅地进来，去体验和探索，然后不断迭代。就像小米刚刚开始推MIUI的时候，也是先有一批种子用户，让用户参与到产品开发设计中来，这个思路可以被推广到新兴技术的治理上，也就是国外现在讲到的负责任的创新。

其次，之前的所谓的公测阶段，更多是从产品体验、底层代码等角度考虑，其实应该在公测阶段就加入“治理的边界性问题”，也就是同时进行治理规则的实验，这种治理不应该只是自上而下的，而是更大程度上是由业界首先意识到，并提出治理的需求和方案，后来才有监管者监督。业界要有主动治理的意识，变成企业社会责任的一部分。

现在我们又处于一轮新技术发展的初期阶段，产品设计上要有价值观的嵌入，如果不考虑这个因素，它带来的问题可能很大程度上要靠事后的规制，这是很难从根本上解决问题的。因为规则不是从某个个体的角度就能识别出来，必须在应用的过程中才能识别出来，应当尽量避免造成大面积的伤害之后才能定位到相关问题上。

Q4：在新技术诞生之时，国外有没有成熟的治理经验可以借鉴？

梁正：由于法律体系的不同，在英美法系国家，不需要法律有具体的规定，法官的判例就可以作为判罚依据，特别是在新兴领域，大量的法律积累就是来源于新的问题出现之后，法官怎么判，宣判以后又可以作为其他法官来判刑的依据。最终积累很多案例之后，会找到一个共识，那么就会写入法条，甚至最后形成法典。我们国家是大陆法系，采用的是成文法，习惯在法律规定中穷尽可能的情境，这其实在新兴技术治理上很难做到。对新技术领域用判例去解决，更加敏捷灵活。在美国，如果有用户认为自己的利益受损，就有权基于相关法律、包括宪法赋予的权利去起诉。所以美国的公司，对于推出新的技术、产品十分谨慎，因为一旦出现重大失误，即使没有相关的法律法规推出，只要基于宪法去提起诉讼，最终这家公司因为推出新产品不谨慎而犯下的某个失误，就有可能给自己造成灭顶之灾。

02 AIGC内容的知识产权之争

Q5：利用AI生成内容是“高科技剽窃”吗？

梁正：围绕AIGC的版权界定问题，一直是争论焦点，目前业界也很难有清晰的答案。本质上来讲，界定是不是剽窃的唯一标准应当是生成新内容后新信息的含量。不同国家关于著作权的法律规定当中，新颖性、创造性都是构成实体要求的基本条件。目前来看AIGC只能发现关联性，并不能发现因果性，所以可能并不能无中生有，创造严格意义上的新内容。但是未来是否量变会引起更大的质变，目前尚很难判定。

引发争议的AIGC作品，《太空歌剧院》图源：网络

从产业发展的角度来看，如果把AI生成内容的著作权给了使用者，有利于使用者创作优质内容，比如新闻、文学艺术创作，可以繁荣创意和创作，激励创作者，这个创作者是人，基本假定人是创意的来源。但如果大量内容都界定给使用者，对于优质工具的提供者而言激励不足，也会影响到此类工具开发者的积极性。

虽然目前在立法上，还没有明文规定，但是业界还是有一定的共识：比如，在科学研究领域，本来研究成果是为了人类共享，所以对于之前研究的引用，即使是借用了AI，一般标明署名和出处，可追溯就好；而基于商业目的的创作，把别人的作品打散重组，比如说小说、文学作品，肯定是不受欢迎的，如果没有标注或声明，是有侵权嫌疑的。

03 探索人工智能领域“数据合作”新范式

Q6：随着AI产业的发展，数据资源变得无比重要，近日，美国与欧盟达成了一项号称“关乎互联网未来”的人工智能合作协议，这对我们的数据治理有什么启示？

梁正：2023年2月，美欧达成了“人工智能促进公共利益行政协议”，拟在预测极端天气和应对气候变化、应急响应、医保事业、电网运行，以及农业发展等五大重点领域带来公共利益。值得注意的是，美欧双方此次在AI领域的合作并不以数据共享为前提，双方在数据流通上仍有所保留。

这件事涉及的领域更大一些，我们一直讨论的ChatGPT所使用的底层数据，其实更多的是互联网领域公共、公开的数据。而美国与欧美达成合作协议所讲的数据，则可能来源于公共部门和社会领域，涉及到公共安全、个人隐私等，它与公开数据不同，但这个合作模式对未来的数据治理提供了很大的启示。

关于数据的流动，从技术发展的角度来讲，大家最希望能有一个共享的数据池，在上面去做训练肯定效果最好，但是这里涉及到数据安全、隐私、版权、产权等各种复杂的问题。即使美欧在数据问题上经过这么长时间谈判，也并不能做到“共享数据池”

美欧现在达成的“联合建模”模式可能是未来的可以考虑的解决方式之一。过去大家的想法是要“让数据动”，但数据一动就会带来一系列问题，如匿名化的问题、数据安全的问题等等。其实从公司的角度来讲，真正要做到匿名化是做不到的，怎么办？现在的方向就是往多方可信安全计算、联邦学习等方向去做。联邦学习的模式，可以让数据不动，只要最后共同建模，得到分析结果，就能解决很大的问题。比如在自动驾驶领域，各个国家都很难去分享交通数据，但是中国的自动驾驶汽车，如何在美国、欧洲安全地行驶？如果用这个模式，不必非要拿到数据，而是通过建模拿到分析结果就可以使用。

当然，目前这只是一个可能方向，也涉及到技术实现的问题，比如数据量超级巨大，模型如何部署，这方面也需要逐渐达成共识。欧洲目前在推工业数据空间，有100多个相关的公司企业参与其中，比如西门子这样的企业。欧洲的思路是建立一个没有流动障碍的统一的、安全的数据空间，大家都可以把自己的数据放到数据空间中，有点类似于数字银行，也是思路之一。

这个思路在工业领域实施相对更容易，虽然也有类似于产业安全等敏感问题，但个人隐私等方面涉及相对较少。在工业领域，主要关心的是谁用了我的数据，怎么使用的，这个要可追溯，放到数据空间中，意味着数据可以放心流动和使用，后台都会有轨迹记录。

美国的解决思路类似于基础公共设施的分层，美国政府开放了大概2000多个高质量数据集，都是基于政府掌握的公共数据。这些数据都是清洗好后再向社会去开放。所以现在去回溯ChatGPT的高质量数据基础，肯定也是基于这样一个更坚实的数据资源。

我国近年来一直在推广数据交易所，这种思路可能更适合大宗、同质化的交易。是不是也可以尝试一下，和数字协议、区块链等新技术相结合，借鉴欧美等国家数据治理的经验，获得一些启发？比如上述合作模式完全有可能成为未来的数据合作新范式，现在有一种观点，人工智能到了ChatGPT的出现，才真正进入大规模产业化、工程化实施的阶段。这个时候一定会有专业的数据服务商出现，不再是以场内交易方式出现，而更多是提供专业化的服务。

Q7：中国发展自己的AI产业，对数据的需求也会日益增加，如何应对国际的竞争与合作？

梁正：中国也有自己的大模型，虽然现在表现还没那么优异。大模型的训练目前确实面临着数据共享、数据安全、隐私保护等各种难题。从大环境来看，也迫切要求我国在国际合作中进行一系列思路上的转变。一方面，我国的数字平台企业要争取走向国际，拓展出更加广阔的发展空间；另一方面，从国家的层面而言，仍然要探讨如何融入全球创新网络，以更加开放的态度寻求国际间的科技合作与交流。而美欧此次合作恰恰提供了数字领域国际合作的一种可参考方案——在各国强调数字主权的大背景下，在数据不流动的前提下通过多方可信安全计算、联邦学习等方式实现对数据价值的共同发掘和利用。