本刊记者 郑雪
月初即花光生活费、因拮据放弃购买藤椒鸡、常使用粗俗语言……微博粉丝仅34人的素人用户小风看到微博智搜对她的描述和总结时,很震惊。
“我不喜欢这种被AI‘偷窥’的感觉。”微博用户睡神对本刊记者说,她也看了微博智搜对自己的“AI总结报告”。睡神的感受是不少网友的心声。
今年4月,微博智搜功能因用户反映“抓取私密微博”引起热议。不少用户质疑微博智搜整理收集其未对外公开的信息,表达对于个人隐私泄露的担忧。这场风波并非孤例,此前字节跳动旗下的豆包APP也曾因能搜出用户个人手机号引发公众对AI应用的隐私泄露担忧。
当技术能在一分钟内生成陌生人的性格画像,当看似开放的社交记录在AI解析下显现出可能未宣之于口的隐私轮廓,AI时代的个人隐私保护正在面临新的挑战。
该如何在 AI 浪潮中守护数据边界?
AI“读懂” 能力引发用户不安
微博智搜是微博研发的一款基于大模型技术与微博内容生态的AI搜索产品,可对相关内容进行提炼总结。除对热搜词条智能总结外,智搜还能对个人账号进行总结,用户只需输入微博昵称,即可获得一份由AI生成的“人物画像”,内容涵盖身份属性、发言风格、观点倾向、兴趣爱好等维度。
今年2月,微博智搜接入DeepSeek R1模型,当前已向所有微博用户开放。
根据《2025微博智搜吃瓜报告》,2025年2月,智搜日均使用量突破800万,同比增长306%;用户使用频次同比增长33%。
举例而言,在微博智搜输入昵称“来去之间”,智搜总结称:“‘来去之间’是新浪微博CEO王高飞的个人账号昵称,其身份和平台影响力使其成为微博生态中的重要角色。”
随后,智搜从平台角色、文化符号与衍生内容多个角度对“来去之间”展开解读:先是提到,该账号简介自称 “社区居委会王大伯,在线接诉”;甚至分析,因“来”字形似“夹”,网友戏称其为“夹总”,该称呼隐含对微博内容审核机制的“调侃”;此外还提到,财经博主“财宝宝”与其互动频繁;等等。
然而,这种“读懂”能力却让不少用户感到不安,有博主发现,智搜总结的内容有明显错误信息。
引发更多忧虑的是,有博主发出一则用户爆料,私密账号内容被读取分析,仅自己可见的微博也被AI纳入总结。
对此,微博方面先后两次回应。4月22日,微博方面表示:微博智搜所收集和分析的数据一直局限于用户公开可见及公开发布的内容。4月25日,微博方面再度回应称:收到不少网友关于“智搜搜索用户昵称”结果的反馈和负面看法,已经对该功能进行调整。
即便微博官方两次回应,仍有用户并不“买账”。 不少用户自发发起“拒绝 AI抓取声明”,声称自己账号的所有内容均不授权微博用于AI。
“就算拉黑某个人,他也能通过智搜持续分析我的生活动态,这种关注不是我主动选择的。”睡神的吐槽道出了不少用户的心声。
智搜如何实现 “解读”
智搜功能究竟有什么作用,技术上如何实现对用户的“解读”?
“微博智搜,是微博研发的一款基于大模型技术与微博内容生态的AI搜索产品。”微博方面对记者回应称,该产品聚焦最新资讯与多元言论,通过深度理解和总结提炼提升信息获取效率。2025年初接入DeepSeek R1模型后,其回答能力显著增强,在热点事件中快速梳理来龙去脉,在文娱领域快速总结动态、打造评价,并能回应用户各类问题及查询需求。
微博方面表示,智搜将微博内的公开博文作为物料,利用模型能力和检索增强技术分析生成智搜结果。
“从技术上来说,这是搜索和大模型结合的产物。平台(微博)接入的大模型(DeepSeek R1)因缺乏专业数据,无法准确回答特定场景的问题。”知道创宇首席安全官周景平向记者分析称,平台通过公开抓取最新数据,解决数据来源问题,并将清洗、加工后的数据喂给大模型。当有人搜索时,便能根据学习的数据回答特定场景的问题。
“智搜只抓取微博站内公开物料,任何涉私物料都不会被抓取。”微博方面5月回复称。
针对部分网民反馈的回答内容过于细化、回答存在负向评价等问题,微博进行了升级优化:更好保护个人信息。技术升级规避搜索结果里的负面、错误信息。分类策略上,比如对明星等公众人物优先展示近期动态和公众评价,普通用户搜索不作内容解读。
一位黄V认证的视频剪辑博主,粉丝量不到3000人,5月曾向本刊记者反馈,用改版后的智搜功能搜索账号昵称,仍能搜到总结,还有他人造谣的内容,很是讨厌。
6月末,上述博主告诉记者,在智搜的总结中,造谣内容已不再体现,但这位博主认为,智搜仅通过几条微博就对某个人“以偏概全”,他仍无法接受这种做法。
记者还测试了普通用户总结,包括睡神和随机选取的3位曾晒出总结截图的个人用户。5月,均未搜到相关总结。
6月末,情况又有变化。
记者实测4个普通账号,其中,微博智搜对睡神和另一普通用户的基本信息,如兴趣领域、情感表达等还是作了总结;其他两位普通用户未搜到总结信息。也就是说,智搜的相关策略进行了调整。
“我们的策略随时在调整,在解决大家感觉被冒犯的问题之后,智搜还是一个搜索产品,正常内容该出还是在出。”微博方面表示,如果搜索页检索到的相关账号内容比较多,会总结,但非负面、隐私内容;如果检索到的内容很少,基本只总结账号认证信息(粉丝量之类)。
针对前文提到的总结错误问题,周景平说,错误信息与数据污染有关。智搜通过搜索抓取公开数据进行总结,如果有人广泛发布涉及特定主题的内容,模型无法判断信息真假,只会判断收到了新消息,然后拿这些数据去总结。
那么,技术能否确保信息的百分百准确?
“关于差错,究竟是模型没有识别,还是网络爬虫(可理解为一种自动抓取网页信息的工具)存在问题,很难判断。”周景平说,以微博智搜为例,目前没有办法保证搜索结果完全准确,即使用传统搜索搜索出来的内容,也没办法保证完全准确。
用户公开信息的使用边界如何确定
微博智搜引发的争议,揭开了AI 技术狂飙中个人数据保护危机的一角。当AI可从个人信息中勾勒出用户画像,甚至触及未明示的敏感信息时,既有的隐私边界正遭遇新的考验。
一个核心问题是,平台能否抓取并利用用户的公开数据?特别是在AI场景下,公开信息的使用边界如何界定?
北京大成律师事务所高级合伙人邓志松向记者表示,如抓取的是已公开的个人信息,则受到个人信息保护法的规制。个人信息即便已公开,个人信息主体仍未丧失对这类个人信息的控制权。
他分析称,根据个人信息保护法第十三条规定,对于公开的个人信息的收集与使用必须以“合理范围”为限。在司法实践与理论探讨中,对于 AI 训练是否在“合理范围”内尚存争议。但需要警惕的是,如果“AI 训练”被用于营利性目的,或者该训练行为可能对个人权益产生重大影响(例如基于公开信息构建深度用户画像、进行行为模式预测等),则此类处理行为构成侵权的可能性显著增加。
对外经济贸易大学数字经济与法律创新研究中心执行主任张欣也表示,即使是公开的数据也并不意味着使用者可以不受限制地进行处理。公开信息处理仍应符合正当、必要、合理的原则。
那么,用户自发发起的“拒绝 AI 抓取声明”有没有法律效力?在邓志松看来,这类公开声明原则上具有法律效力,个人信息保护法第 44 条赋予了用户拒绝权。“公开声明包含明确拒绝内容,且微博目前尚未提供用户拒绝AI抓取的明确途径,用户以此方式拒绝具有合理性。”
在张欣看来,即便是公开数据,平台与第三方也应尊重用户的“拒绝抓取声明”,并严格控制处理方式和使用目的。
一个更值得关注的议题在于——若平台将公开信息用于构建用户画像、行为预测等深度应用时,出现错误应当如何处置?
在邓志松看来,平台应尽到相应义务并及时处置。“微博作为微博智搜的服务提供者以及智搜结果的展示平台,对信息展示具有平台责任。如果微博作为服务提供者未尽到相应的审查和管理义务,或未在错误出现后第一时间进行处理(例如用户已要求纠错后微博不予修正的),那么微博应当对产生的不利影响承担责任。”
张欣则提出,在法律层面,个人信息保护法赋予用户数据处理的知情、同意、撤回权。目前,微博尚未推出相应的退出机制。未来或许可以设置基于用户隐私设置的退出标记。在用户的主页增设“禁止AI抓取”选项,在后端为退出用户添加标签。
微博智搜风波终将平息,但它引发的思考不应停止。
在AI 时代,当技术能够穿透信息表层,挖掘出用户自己都未曾察觉的行为模式时,我们或许需要重新定义“隐私”的边界。即便是公开发布的内容,也应保留被主人自主管理的权利。这一权利的实现,需要个体、企业和监管机构的共同努力。
(应采访对象要求,文中小风、睡神为化名,本刊记者谢玮对本文亦有贡献)