大数据背后,是谁在监视我们的生活?

频道:生活应用 日期: 浏览:45

声音传感器的应用领域_传感器的生活应用_声音传感器 生活应用

一个Android应用程序开发人员曾经试图向女友解释他的几乎全能工作:安装应用程序后,他可以获得很多授权来推断数据中的人们在数据中的工作,经常去的地方,他们毕业的学校的工作来自和他们拥有的。爱好,无论您是否有婚姻,无论您有外遇,是否有房子,是否有汽车,无论您在度假还是在家待在家里,甚至通过阅读银行通知文本消息来推测您的实际收入。有时,为了满足客户的需求,他必须在人们的心中推测并消除伪君子。例如,如果您在手机上下载高端财务应用程序并打开频率几乎为零,则该人的标签要么意外下载了错误的软件,要么“更多安装”“”⋯⋯

文字丨li feiran

Zhao Hanmo编辑

我们的故事

北京有很多故事未知。最容易被忽视的真理之一是,这里总是有人比你更了解你。在周一早上高峰时段,一些挤进地铁上观看金融新闻的人会收到系统在周五下班的途中为他们推动的八卦新闻,因为算法知道这是他们目前想看到的最多的。面部识别公司知道,我们每天晚上,涂上面膜以及周末躺在床上的时间何时卸妆时知道,因为在这些时候,面部识别率的传递率将突然下降。

在现实世界中,性别仅分为男性和女性,但是阿里巴巴集团前副总裁Che Pinjue说,阿里巴巴曾经拥有18个性别标签。它知道有些帐户白天由男性用户持有,但在晚上是一个女人。判断的基础是用户信息,浏览产品类别,对话标题和访问习惯,我们自己可能没有注意到 - 单击屏幕上的严重性以及通常输入错误单词的错别字。在浏览器窗口中,您喜欢在新窗口中打开。或反复使用前后键,这正是他们告诉机器正在将产品页面滑到屏幕上的机器。

在大数据中,我们有非常真实的群体肖像。因为在面对我们的电话时,我们非常诚实,并始终向他们讲真话。

世界上唯一知道这些秘密的人是您,以及机器另一侧的数据科学家。在机器语言中,我们不仅仅是名称,地址和一串设备标识符。它每秒监视超过400个变量,记录每个行为轨迹。

现年57岁的Andreas Weigend知道无数此类故事。他出生于德国,最初在著名的欧洲粒子物理研究所(CERN)研究了神颗粒。但是,在2002年,他选择加入大数据世界,并成为亚马逊的首席科学家。后来,他曾担任阿里巴巴的数据顾问,以及人民币的早期外部投资者,还为摩根大通,汤姆森路透,沃尔玛,AT&T和其他机构提供了数据咨询。

他教机器了解人类的一种方式是:知道用户的地址后,他还必须捕获地址周围5公里以内的书店的分布,因为这决定了用户在亚马逊上购买书籍的可能性,在什么情况下将他买书。该标准后来应用于阿里巴巴的数据分析实践,因此,当淘宝知道您家中5分钟步行路程内有一家超市时,它并不经常向您推荐油,盐,酱油和醋,但它看到了您的搜索记录并得知您的皮肤很敏感,并且在15分钟内的购物中心没有您习惯的皮肤护理产品,因此这些产品将出现在您的屏幕上。

Wei Si'an将数据分析师的日常工作描述为“人类实验”,就像科学家通过实验探索物质的本质一样,数据分析师通过程序研究人类行为特征。技术改变了人类物理的概念。定义我们的不仅是帐户和密码,还包括我们的爱好,情感和行为习惯。无论我们如何在互联网上掩饰自己,并更改为新名称或化身,机器始终都可以轻松地看到它。数据记录下的习惯​​是我们身份的另一个定义。

这些故事使他兴奋不已,并同时打扰了他,Wei Si'an告诉人们:“由于技术,我可以看到过去十年中我们生活的破坏性变化。但是,这是否真的使我们更加舒适?”我没有答案。”

在数据世界中,我们面对手机时面对的每一步都成为机器学习的材料,并培训人工智能以更好地了解人性。那些深刻而神秘的人的生活问题 - 我们是谁?好朋友是什么意思?我们将选择什么样的生活 - 这些答案可以在搜索历史记录,社交网络聊天历史记录和手机传感器中找到。

截至2018年第一季度,每月有超过10亿人使用微信和微信,在淘宝上购物6.17亿人,全国6.4亿次搜索引擎用户。他们始终创建了新的大型数据,并且还以极为准确的组概述。肖像,机器正在逐步了解人性的清晰图片。数据是这个时代最特殊的商品。它的生产几乎没有成本,但是它创造了无数的技术独角兽,越来越强大的上市公司以及数亿个工业利益。

大数据越来越了解我们,但是很少有人知道我们所做的将使我们成为广告商的产品,个性的样本,掌握我们的一举一动,甚至可以预测我们的未来轨迹。

声音传感器 生活应用_声音传感器的应用领域_传感器的生活应用

“隐私”

多个数据科学家坚信隐私已经是“算法无效”事件。我们知道我们正在共享数据,但是大多数人不知道我们正在共享什么,更不用说这种分享的含义了。

聆听分析师告诉数据挖掘过程就像见证了悬念推理,但这次,夏洛克·福尔摩斯(Sherlock Holmes)生活在大数据中。一切始于移动应用程序的安装软件中的SDK。这是该应用程序中配备的软件开发工具包,该工具包嵌入统计分析工具以实时收集用户信息。当然,这是您批准的,只是在用户协议中,您可能永远不会仔细阅读。

从下载应用程序到手机的那一刻起,试图开始生活的尝试开始。只是在安装过程中捕获的硬件设备信息,该应用程序已经给您带来了粗糙的印象 - 如果手机在一个月内连接到同一星巴克WiFi 10次,并且连接到位置20次的同一位置。公共区域wifi,连接一个家庭WiFi 30次,然后计算这些wifis的地理位置以及WiFi名称中的关键字,然后,这是一条几乎清晰的终身途径 - 工作,get。

在学者论文中,这被描述为“数据失控”的时代。没有人可以控制自己的数据,并且我们的数据始终受到监控。

但是,实际处理数据的人并没有这种感觉。人们担心他们的个人信息的泄漏,例如他们的姓名,电话号码和地址。在行业中,工程师将隐私提供了最简单的定义 - 隐私,即不允许自由流动的数据,例如法律禁止的ID号,个人信用和医疗记录。它们只能以固定的方式存储。允许随意阅读。实际上,现在越来越多地限制应用程序收集信息。例如,iOS10之后的系统禁止从许多设备中读取硬件信息,并且Android系统逐渐限制了软件可以获得的用户信息范围。

但是,对于公司而言,以上信息很重要,但是更有价值的是其他数据 - 您的偏好,兴趣,生活方式和行为习惯 - 这些数据在许多人的概念中都不属于隐私。

“大数据可以做很多事情,并通过合理的分析来解释世界。最好的是,这些东西根本不会触及隐私。” Dahe在公司的数据相关部门工作。她认为,法律明确禁止隐私收集和交易。个人身份信息,例如身份证号码,手机号码,家庭注册地址等,她的工作完全避免了它们。 “我不知道他刚刚分析的照片中他是谁。我看到的只是设备。例如,我可以在Huilongguan看到一台Android设备。我在上午9点去了Wangjing,并在晚上9点回来。跟踪我知道一切,但我不知道他是谁。”

不愿签名的数据工程师说,如果有问题,那是黑市私下转售个人身份信息。如果您为20元人购买一个人的信用报告,则可以购买数百人包装的数据的高净值人士。这些与社会信息有关,需要管理。但是,互联网公司收集的是“浅信息”,这没关系。

小Qiao曾经在一家互联网公司工作,其主要业务是“大数据分析”。她的工作是使用公司通过大数据获得的用户肖像来组织离线营销活动。她说,她并不担心被注意到,因为根据她的经验,其中许多是“骗人,但他们不准确,所以我应该害怕什么?”特别是在北京,上海和广州,每个人都如此不同。用户肖像根本不起作用。他们只是用一个头在第三和第四层城市中欺骗人们。

“(我们)可以获得各种信息,但这是毫无用处的,我懒得阅读它。”一个不想签署的程序员说:“互联网公司使您感到害怕,只是因为您在应用程序中并且不隐藏自己的样子。但是您会在淘宝上秘密搜索润滑剂;具有四位数价格的正版软件,您仍然搜索盗版下载...”

真正的RMB

对于拥有大量用户数据的大型公司,真实的人类肖像等于金钱,因为他们可以找到非常准确的目标用户。例如开元ky888棋牌官方版,如果商人想为5岁以下的儿童出售一辆购物车,他们可以提供“在家5”。年龄以下儿童的用户群体,以及从未按订单购买此类母亲和婴儿商品的用户群体。它们在数据库中形成了大量的用户偏好,兴趣,习惯和其他数据,以便他们可以向品牌和广告商推广:这些消费者数据也是一种资产,您知道他们习惯于购买的东西以及何时想何时想购买。购买,并且可以像未来一样预测,直觉地看到未来可能获得的收入不是估计的指标或指数,而是“真正的RMB”。

这可能是广告商最喜欢的时代。 Facebook启动了一种经过验证的算法,看起来像。例如,如果一家公司想出售啤酒,则只需为购买该葡萄酒的100个用户提供。数据将把他们视为种子用户开元棋官方正版下载,寻找与种子用户相似的500人。他们有相似的兴趣和相似的行为习惯。他们可能没有购买啤酒,但根据其类似的行为特征,类似的组很可能在推送和购买这种啤酒后立即转换。

并非每个人都对这些“隐私”开放。 Wushan在一家互联网公司工作,在行业中排名很高,并使用大数据推荐算法。每天在工作中,他都可以看到应用程序上所有用户的行为轨迹信息,包括电话号码,地址,搜索记录,每个屏幕上的互动行为等。这是他的工作,但他说这也使他感到不安。

“尽管据说数据是​​打开并且数据开放的,但我仍然认为这些数据确实是打开的,并且没有很好的保护!例如,内部员工可以检查应用程序上用户的行为习惯,当应用程序收集用户信息时,也可以收集用户信息,我认为应该收集什么,而应该被认为是隐私的,应该有一些机制来保护它,对吗?知道现在有行业标准。

根据“金融”的先前报告,中国的个人信息泄漏数量达到55.3亿,平均而言,每个人都有四个相关的个人信息泄漏。这些信息最终在黑市中反复处理,直到被挤出了价值为止。其中80%的数据泄漏来自公司内部人士,而黑客仅占20%。去年6月,广东的坎顿警察发出了通知,某些国内苹果雇员被怀疑通过非法手段获得与苹果手机有关的个人信息,包括当用户注册Apple帐户时填写的个人信息。涉及该案的22人中有20人在苹果的国内直接销售公司中。与苹果外包公司合作,每件作品以10元到180元的价格出售,非法转售至少200,000件个人信息。

不久前,一名Facebook安全工程师被解雇了,因为他吹嘘每个人在网上接待女性时能够看到的信息,“我是专业的缠扰者”。一位Douban用户表示,与他的前男友分手后,他不断地跟踪和骚扰。他的前男友在电子商务应用程序中使用了登录漏洞来查找她的家人,最好的朋友和朋友的名称,地址和电话,但即使在抱怨之后,最终,缠扰者也没有被阻止登录。

现在,如果您需要填写注册表来购买商品,或者在下载新应用程序后需要关联用户信息,则它将使Wushan感到不舒服。他说这可能是他的“职业疾病”。

在互联网上,Wei Si'an做过的最疯狂的人类实验是关于他自己的。自2006年以来,他主动将其所有联系信息发布在他的网站上。在那里,任何人都可以看到他的实时地址,电话号码,电子邮件地址,行程,工作时间表,即将到来的航班号和座位号。他在旧金山和上海宣布了他的地址,地板上确切的房间数量。

这与他父亲的经历有关。魏·西安(Wei Si'an)的父亲被强行监禁了六年,因为他被错误地指控是一名间谍。后来,当魏·西安(Wei Si'an)检查父亲的个人档案时,他出乎意料地发现,即使父亲被释放出狱,安全部仍在监视他,并为自己的儿子建立档案,以收集信息。

这种经历极大地影响了他的数据观点。 “我们不能持幼稚而浪漫的观点,并认为我们可以拥有隐私。我已经看到数据如何对待我的父亲,我的父母曾经一无所有,我们不应该天真地认为一切都不会再次出现。”

“我将联系信息放在线上,但是如果我被要求发布我的搜索历史记录,我将永远不想。”他说,在某种程度上,您的朋友知道,电话号码或地址不是私人信息,您的同事也可能知道,但是搜索记录中揭示的个人喜好和习惯是非常私人的个人信息。

一个Android应用程序开发人员曾经试图向女友解释他的几乎全能工作:安装应用程序后,他可以获得很多授权来推断数据中的人们在数据中的工作,经常去的地方,他们毕业的学校的工作来自和他们拥有的。爱好,无论您是否有婚姻,无论您有外遇,是否有房子,是否有汽车,无论您在度假还是在家待在家里,甚至通过阅读银行通知文本消息来推测您的实际收入。有时,为了满足客户的需求,他必须在人们的心中推测并消除伪君子。例如,如果您在手机上下载高端财务应用程序并打开频率几乎为零,则该人的标签要么意外下载了错误的软件,要么“更多安装”“”⋯⋯

这些猜测不是完全准确的,也不涉及身份信息,但是它们已经使普通用户的女友感到生气并对他生气:“您为什么这样?来自我们的人是谁?

对抗

在技​​术领域,边界是最难讨论的最困难的话题。大多数公司反复强调,尽管我们收集了大量数据,但我们非常重视隐私,并且永远不会透露您的名字。实际上,许多大公司这样做。他们有非常严格的数据保护措施。例如,微信具有相对复杂的ID系统,并且该系统为用户具有唯一的ID标识符,但是第三方开发人员无法获得此唯一的ID。即使对于同一用户,不同公共帐户下的第三方开发人员收集的ID完全不同,这完全阻止了公共帐户之间用户数据的随机交易。

负责用户开采的微信斑马系统仅支持10,000多人的人口肖像分析,以实现“分析没有一个人的一群人”,并且还将在分析过程中积极控制准确性,例如分析用户的地址,仅在进入社区时定位,您将不再根据气压传感器的位置高度定位建筑物和地板。

在媒体采访中,一个负责阿里巴巴的技术人员说:“数据肯定正在朝着越来越严格的控制方向发展。我们收集信息的目的实际上是为了更好地改善用户体验,因此,基本原则是,收购这些信息应基于改进产品的观点。地址可以快速确定这是否是用户的常见地址。这笔交易是否可能?它可以有效防止基金风险。

但是,尽管他花了两个小时解释了现有的隐私保护程度,但他忍不住补充说:“但是,我最近在互联网上进行了心理测试。单击图片以生成自己,我建议大家建议不要单击照片,因为它通常背后有很多信息。”

这个看似无害的休闲应用程序可能无法直接窃取身份信息,例如手机号码,ID号等,但是目前您可以单击授权并输入游戏,它可以轻松地完全获得您的社交关系和在线行为习惯。 。今年3月,Facebook暴露于隐私丑闻,严重的数据隐私侵犯影响了8700万人。这些数据包括用户的社会关系,兴趣和偏好,例如记录和其他个人信息,所有这些始于类似的心理测试。 Cambridge Analytica通过摇摆这些用户在Facebook上收到的推动力,最终帮助特朗普当选,从而影响了他们对美国大选候选人的态度。这些数据“不确定已复制了多少次”,甚至可以存储。在俄罗斯。

并不是说没有技术方法可以抗击此类数据危机。在英国,有一些公共机构致力于保护个人隐私并直接向英国议会报告。它提出了一个数据经理注册系统,要求每个处理个人信息以在信息专员办公室注册的机构,否则将被视为刑事犯罪。许多公司也有谨慎的数据使用理念。 Google将完全将用户的姓名,帐户,联系信息,地址和其他信息与行为数据分开,并且不会关联两者。雅虎将有特别研究人员在实践中定义数据收集的隐私界限。

许多数据科学家在论文中详细介绍了自己的隐私保护措施。有些人已将分散信息流控制和差异隐私保护技术应用于云计算,有些人通过混淆技术对用户隐私进行了加密。另一种类型的有效操作方法是创建噪声,并根据用户历史记录创建相等的行为噪声比例。这样,对于试图解释用户行为来区分哪个是用户的真实需求的服务提供商很难区分系统产生的噪声,从而保护用户的真实隐私。 。

但是,在真实大数据的前线上,这些对策尚未在路上,战斗已经被击败。技术理想的敌人实际上比想象的要更原始 - 那些不遵循严格规则背后的规则的人。

在美国学习后,Cheng Lu在国内约会社交平台工作,并负责大数据处理。同事们需要开展营销活动,查看用户数据,他们想查看最近的用户在谈论什么,然后根据用户偏好以有针对性的方式进行活动。 “从理论上讲,这也是业务要求。他想取样,但我不介意。” Cheng Lu说,聊天记录是加密的,他迅速对其进行了采样,打破了可追溯的信息并使用户信息不敏感。但是该行动同事不愿意这样做,他要求查看全部数据。

完整数据的概念是什么?它是应用程序上用户的所有数据,可以非常准确地描述用户。他的身份背景,兴趣,爱好,行为习惯,甚至他的日常喜悦,愤怒,悲伤和幸福可以从他的行为痕迹中推断出来,但这是关于隐私的巨大挑战。 Cheng Lu试图向另一方解释说,如果仅是为了营销,那么在脱敏后使用样本就足够了,并且无需查看全部数据。

但是出乎意料的是,该提议尚不理解。运营商不同意,公司的首席技术官不同意,甚至首席执行官不同意。他的一位同事说:“我很惊讶这个行业的人们仍然有这种想法。”另一位同事对他评论说:“您如何以如此不稳定的心态生活在中国?如果您知道您的房屋,汽车和保险,您不禁可以随时住在中国?,信用卡,婚姻,酒店签到,家庭注册信息,工作信息和其他实际信息在各种公司的销售中每天都有一百次。

但是,这与Cheng Lu的技术理想背道而驰。 “这就像用手将别人的日记转向页面上的人。”他问:“如果是你的日记,你想要吗?”

最后,什么决定数据的命运来自首席执行官的轻描淡写:“这是怎么回事?把它给他!”

Cheng Lu将全部数据提供给业务部门。在同一周,他辞职:“原因一半是,这是不同的。”在这里,他还不时面临数据交易,并且会有大型公司。销售人员要求他与引号讨论合作。表格上的每个用户组都有大致的价格标签。那些热爱旅行,每天订购外卖,每天玩游戏超过4个小时的人。每个组都有一个相应的组。广告商喜欢它。因此,只要完善用户特性,您就有机会以货币出售。这是一项大生意,但它使他感到非常不舒服。

现在,他是一家外国资助的游戏公司,并且有许多理由选择新工作。其中之一是,很难找到一家在当前环境中不跨越界限的公司,因此找到一个他不想强烈收集社交数据的地方。他说他会像这样工作更舒服。

魏·西安(Wei Si'an)说,抗击隐私危机的最有效方法是严厉惩罚。 “我们不能天真地期望数据公司足够自我驱动,以维持我们数据的隐私。对于这些公司来说,惩罚是他们唯一可以理解的语言。”

声音传感器 生活应用_声音传感器的应用领域_传感器的生活应用

数据未来

我们面临的数据的未来是,人​​们可能比他们想象的更可预测,并且算法可能比我们更好地了解世界。

2008年9月15日,雷曼兄弟(Lehman Brothers)宣布破产,引发了次级抵押贷款危机。第一个意识到这是LinkedIn的数据科学家。他们注意到9月14日显然是一个周末,但是网站数据非常活跃,人们一直在联系工作,更新简历并发送消息。所有这些行为都来自雷曼兄弟的员工。

通过技术优化,现在甚至没有必要成为专业人士来了解真相。在今年年初,使用健身录制软件Strava的用户发现,仔细检查应用程序提供的运行热图可以轻松推断美国军事基地在阿富汗的特定位置。因为它实时跟踪用户位置数据,并以突出显示的形式将其显示在地图上。在饱受当地用户很少的战争的地区,每天共同跑步的美国士兵在热图,基本位置,出勤时间和巡逻路线上的一条异常明显的动作路线清晰明了。

2012年,罗切斯特大学的教授亚当·萨德莱克(Adam Sadilek)和微软实验室的工程师约翰·克鲁姆(John Krumm)共同发布了他们的研究,“有很多研究可以预测人们的未来。”行程通常会预测人们在一个小时内将去哪里,”他们的论文读到。“相反,我们正在努力解决一个更开放的问题 - 预测人们将在几个月甚至几年内就可以进入。”

他们在32,000天内收集了来自307人和396辆汽车的GPS数据,建立了高达80%的型号。在他们的描述中,未来的营销广告甚至可以准确地像这样:“您需要理发吗?在4天内,您将靠近这家美发沙龙,您将获得5美元的折扣。”

达赫说,一旦数据团队私下聊天,当他们聊天时,有人突然问,一个人可以在一生中使用大数据来分析它吗?

结果,几个人开始以笑声推断出来,并迅速害怕自己。在理想的状态下开yunapp体育官网入口下载手机版,从出生到死亡的每个阶段都可以预测一个人的出生,他的家庭背景是什么,他父母的收入水平是什么,他的童年个性和行为习惯,结合了当地教育水平指数,包括从新闻中提取的实时经济波动曲线等,许多被认为是意外的事情通常只是计算概率。

在讨论结束时,有人大喊,生活的意义是什么?经过很长时间的麻烦,生活是数学概率问题吗?

实际上,这是一些数据科学家的愿望。他们希望打开每个链接中的数据,获取全域大数据,打开“上帝的观点”并最大化数据挖掘。在对乐观人的描述中,这将是一个美好的世界。机器将根据大数据选择最具成本效益的产品,最合适的医生以及对我们的最佳途径。将来不会有交通拥堵。每个人的操作都将是轨道将实时调整配置,绿灯将一路...

但是,还有另一种可能性:您的健康数据表明您的胆固醇太高,您需要适度运动和进食,但是您在购物车中下订单,订购油炸食品,登录方式是您自己,并且运动传感器表明,您没有跑步,您仍在挂在沙发上观看电视连续剧。因此,潜在的招聘人员确定您的性格包含“弱意志”的标签,并计划拒绝您的工作申请。

这是一家大公司曾经面临的技术主管的真正选择。数据研究人员在他的故事中找到了他,希望他能使用数据并使用用户的购物数据来协助招聘决策。但是那个时候,他选择放弃。一个主要原因是跨度太大,无法保证准确性。另一个原因是这样做使他感到道德违法行为有些不合时宜,“大数据也无能为力。”

在大数据的世界中,仍然有些人认为,世界上人性总是有数据无法解释的一部分。魏·西安(Wei Si'an)说,他仍然偶然地相信偶然性。 “我不想被定位,细分,转换或分析。我不想成为由大数​​据模型定义的人。”

尽管他不再是物理学家,但他仍然坚信许多物理法,例如能量保护和关系逆转。大数据中最好的部分不是最终发现一个完美的模型,该模型揭示了人性,而是不断探索人性的过程。

The most beautiful thing about technology, he said, is that it can provide countless possibilities. Technology mines user data, making people feel out of bounds, but in the same way, it can also be used to expose bureaucracies and organizations that close information, break their cover in a technical way, and make the data completely transparent and use it for公众。 The key now is to start an open discussion and find this boundary.

In any case, we still live in this digitally surrounded world and are unwilling to let go. Statistics show that people have to swipe on their mobile phone screen on average 2,617 times a day. On nights when they can't sleep, 23% of respondents will sleep with their mobile phones, while 3% of them emphasize that they must hold their mobile phones every day. Only then can you fall asleep.

There is no sound when the fiber optic sends data back, and it won't remind you what's going on here. Before better rules arrive, the world of big data will remain a silent battlefield without sirens. Just like the neglected Friday night rush hour subway in this city, the unopened high-end financial app, the personal preferences printed on the quotation list, and the human beings who are bothered, quarreled, numb, and fought for it. Like stories, they exist only in the connection between one string of characters and another string of characters, and are rarely known.

(Some of the data in this article are from CNNIC, Quest Mobile, TalkingData, Youmeng, Nelson, National Bureau of Statistics and other public data and annual reports of listed companies. You Rongping, Wan Yuke, and Yao Yinmi also contributed to this article, which mentioned in the article. All Chinese data workers are anonymous)

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。