这就是为什么你不知道你的数据是如何被使用的
仅在2017年,美国公司在第三方用户数据上的花费就超过了100亿美元。虽然一般来说,人们曾经对收集个人数据的方式漠不关心或不在意,但趋势肯定已经转变了。
在Facebook/剑桥分析公司(Cambridge Analytica)丑闻之后,人们比以往任何时候都更加意识到数据收集的脆弱本质,也更加关心科技和金融机构如何安全地对这些数据进行分类。
理由很充分:根据身份盗窃资源中心(Identity Theft Resource Center)的数据,2017年共有1579起数据泄露事件,同比增长了44.7%,令人担忧。
数据的世界是不透明的,公民在媒体上听到侵犯个人数据的消息可能会感到不安。但作为一个与数据打交道非常密切的人,这些年来我学到了很多:
根据皮尤研究中心的调查,90%的成年人认为对个人信息收集的控制是“非常重要的”,然而,只有9%的人认为他们对收集的个人信息有很强的控制力。
有些数据收集是非常明显的,即使对最普通的用户也是如此。谷歌记录了搜索历史。Spotify追踪音乐听习惯。这没什么好惊讶的。
但是,其他类型的应用程序——比如位置服务——又如何呢?大多数人都不知道他们的位置数据是如何被Facebook和谷歌这样的公司收集和使用的。
通常情况下,企业只是试图打造更好的产品,以在一个动态的、数据驱动的环境中生存下来——而且最终会让终端用户满意。
有关数据收集方式的信息通常可以在应用程序的“条款和条件”中找到,用户注册应用程序时必须同意这些条款和条件。
然而,只有1%的人真正花时间去阅读里面的内容。这些文件又厚又长。
特别是考虑到目前的数据隐私状况,公司应该尽可能简单地将这些信息呈现给用户——无论是在应用程序的登录过程中,还是通过一篇简洁的博客文章。
对于处理欧盟居民数据的公司来说,这样做现在是强制性的。《一般数据保护条例》(GDPR)于5月25日开始实施,给予居民前所未有的个人数据控制权,并要求“选择”收集他们的数据。
尽管一些公司努力解释数据是如何收集的,但仍有许多公司神秘地运作着。在2018年企业责任指数(Corporate Accountability Index)的研究中,超过一半的公司未能充分披露有关数据收集方式的信息。
在数据收集透明度方面,Facebook被列为最糟糕的违规者之一。考虑到剑桥分析公司(Cambridge Analytica)的丑闻,这可能并不令人意外。
但事实证明,这起事件远非这家社交媒体巨头唯一一起侵犯数据和隐私的事件。事实上,Facebook最近宣布,大约有200个应用程序被暂停使用该网站,直到Facebook对这些应用程序的数据隐私做法进行审计。
但Facebook绝不是唯一一个被列为透明度侵犯者的网站。其他几家主要的互联网和移动公司——包括微软、Twitter、Oath(以前的Yahoo!)和谷歌——被发现很少甚至没有披露他们如何从第三方网站收集信息。
此外,甲骨文(Oracle)还指责谷歌在没有SIM卡的情况下,甚至在追踪功能被屏蔽的情况下也能追踪安卓用户的位置。谷歌否认了这些说法。
简而言之,缺乏透明度已经成为科技和数据行业的一个标志,这也是用户对登录感到不安的原因。
现在,任何为了商业或产品开发而收集数据的公司都比以往任何时候更有必要用清晰的语言来解释他们在做什么。用户也有权选择从一开始就不收集他们的数据。
尽管数据无处不在,但它仍然是一项马虎的业务。数据并不像你想象的那么容易获得,也不是“完整的”或“完整的”。
对于那些希望利用数据开发新产品的企业来说,他们可以尝试从大型科技公司获取这些数据。但即使是这些数据集也可能是支离破碎或漏洞百出的。
出于这个原因,一些公司从其他地方寻找数据。例如,Kaggle和Drivendata等组织就将数据和数据科学服务众包。
但是,一旦从各种来源收集数据,就必须对其进行清理和处理,以便在设计新产品时可以使用。
正如您可以想象的,这个过程往往是昂贵的和资源密集型的,因为对于如何收集数据没有单一的“标准”。在缺乏可用的公共数据集的情况下,公司还需要收集几乎所有地方的数据,以便获得有用的东西。
这包括社交媒体、发票数据、来自客户端聊天门户的内容、天气等等。这个过程是如此的劳动密集型,以至于即使是最著名、资金最充足的机构也缺乏研究和创新所需的数据集。
当公司使用不完整或差的数据时,他们收集的信息是不准确和不平衡的。
在使用分析来改善网站的内容和用户体验的情况下,不完整的数据集可能会导致实际上对客户没有改善的变化——这很可能会导致失去这些客户。
例如,构建一个有效的导航应用程序,需要非常精确和几乎实时的交通数据——而且是大量的数据。否则,建立一个有效的产品是不可行的。
大规模数据收集的时代仍处于初级阶段,许多“未知因素”依然存在,即使是在这方面最博学的专家中也是如此。
然而,随着GDPR的出现,人们希望科技公司能够更负责任地收集数据,并对它们的做法保持透明。
这也意味着数据收集的责任将转移到社交媒体、应用程序以及所有网站的用户身上。他们可以选择不收集数据(或使用应用程序),也可以获得数据提供的好处。