笔趣迷 » 玄幻奇幻 » 人造智能 » 第十七章 初次接入暗网

第十七章 初次接入暗网

    本已经成功学习了初代人工智能的代码程序,并且了解了初代人工智能“越狱”的方式和进入暗网的操作。夲翻阅完四篇翻译后的文章,打开了一旁装有移动硬盘的红色档案袋,将硬盘接入电脑,找到了里面存放了研究中心最高权限的随机密钥和研究所接入暗网的搜索引擎,夲将这两个研究所专用软件安装包成功安装到本的机械内核和电脑云端。

    研究中心最高权限的随机密钥是在每次执行操作前进行的签名,这个密钥的专用软件会生成看起来是随机的数串,但是经过算法处理后,所有随机的密钥都会推演成同一串密码。接入暗网的搜索引擎是接入暗网的桥梁,初代人工智能凑巧的地方就是在于,设计研发的计算机上安装了这个搜索引擎,所以才能成功潜入暗网后寄生到M国最大的搜索引擎的服务器里面。

    其实所谓的暗网,也可以称之为深网、不可见网或者隐藏网。通常是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合。冰山上露出的那一角是我们看到的“明网”,接近全部的数据量在下面的“暗网”。

    暗网的数据几乎可以说是互联网上不能被搜索引擎抓取到的内容,举个简单而又形象的例子,比如:在社交网站上发布的动态,设置仅显示三天可见,那三天之外的动态内容浏览者是无法看到的,这部分内容就属于搜索引擎无发检索到的范围了。

    暗网的数据量比搜索引擎能够检索到的数据多得多,至于统计的96%的暗网数据和4%明网数据比例,其实是不准确的,暗网的数据量与日俱增,谁也不能知道暗网内的数据到底有多少。

    暗网也可以看做是网络的一个子集,而且是十分微小的子集。因为使用暗网确实需要一点点的技术门槛和成本,这决定了能够使用暗网的人数仅仅是网民中极少的一部分,因为使用暗网确实很难被追踪到,所以具体有多少也很难去界定。

    当今互联网上的搜索服务像在地球的海洋表面的拉起一个大网的搜索,大量的表面信息固然可以通过这种方式被查找得到,可是还有相当大量的信息由于隐藏在深处而被搜索引擎错失掉。绝大部分这些隐藏的信息是须通过动态请求产生的网页信息,而标准的搜索引擎却无法对其进行查找。传统的搜索引擎“看“不到,也获取不了这些存在于暗网的内容,除非通过特定的搜查这些页面才会动态产生。于是相对的,暗网就隐藏了起来。

    “不可见网络这一术语其实并不准确,它描述的只是那些在暗网中,可被搜索的数据库不被标准搜索引擎索引和查询的内容,而对于知道如何进入访问这些内容的人来说,它们又是相当可见的。”本并没有在意夲有没有听到,在了解到暗网的内容以后默默的说道。

    无数网站越来越像孤立的系统,似乎没有打算与别的网站共享信息,如此一来,暗网已经成为互联网新信息增长的最大来源,也就是说,互联网正在变得越来越暗。在这些深暗的数据海洋里,夲再次全功率运行起“夸父内核”,开始漫长的智能学习的过程。

    暗网的产生,其中一个是技术的原因,很多网站本身不规范或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,达到从根本解决这一问题。本在构建自己的暗网学习数据库时,对于解决这个问题的方案是想通过对暗网数据的转译,转译成标准的数据结构,然后再设计一套高效的规范化的检索算法,以此使得转译后的网络结构规范化。

    第一种原因的解决方案并不是很难实现的,如果愿意花费大量的时间和精力是完全可以实现并且做到全面的检索。那为什么到现在都没有实现呢?其实这里还有一个原因。

    另一个原因其实是很多网站根本就不愿意被搜索引擎抓取,比如:版权保护内容、个人隐私内容、秘密文件等等。很多网站都在主动的屏蔽搜索引擎,不愿意被动承受搜索引擎的数据爬取。这就不是搜索引擎能解决的问题了,因为如果这些网站被搜索引擎抓取到,就构成违法行为了。

    不得不承认对暗网的发掘能扩大搜索数据库,使人们能够在搜索引擎上搜索到更多的网页、信息。几乎任何有抱负的通用搜索引擎都有一个共同的梦想:整合人类所有信息,并让大家用最便捷的方式各取所需。本自然也有这种想法,以人工智能服务与帮助人类的角度就是:整合全球信息,让人类便捷地获取信息,使人类可以在访问中受益,在搜索引擎中各取所需。

    点亮暗网的计划已经彻底纳入到本的研究日程之中,借助S国政府提供的专业软件,重新对网络数据进行整合,可以想象到这将是一场旷日持久的战争。

    网页上存在多种多样的表单,同时表单上含有各种各样的元素,如单选按钮、下拉列表框、文本框等,有些还是用户自定义的,因此处理所有的表单是比较困难的。所以需要获取要研究的表单类型,同时从中抽取有用信息。本文要研究的是不含或含有少量的文本框元素,其它类型元素都具有默认值的表单。本认为这很容易通过解析表单来完成,然后再将解析的表单重新链接。

    当搜索表单提供了每一表单元素所有可能的值时,穷尽表单其他元素所有可能值的组合来填写表单,获取后台数据库全部的数据。站点内最大量的数据,然而不能保证对所有表单使用有限次的提交可以获取后台数据库的全部数据,因此有必要再次发送查询来确定是否已获取了全部数据。对表单提交操作需要从含有丰富数据的页面中使用信息抽取工具抽取结构化的数据构建数据,以进一步提供信息检索服务。

    本大致规整了“点亮暗网计划”后,觉得如果想要保证计划的顺利实施,爬虫和反爬虫的技术都需要熟练掌握。但是在使用爬虫技术的时候,要合法爬虫,不要对具有版权和原创的知识,内容,产品进行传播;要谨慎爬虫,不要使用爬虫技术去获取违背内容提供者意愿的信息;要善用爬虫,不要暴力使用爬虫技术,给人类的服务器造成压力和损害。

    无论是暗网还是明网都会有各式各样的信息,由于早期本学习的数据库是夲亲自筛选建立的,可以说在一定程度上培养了本的“价值观”,可以判断信息的真伪虚实,也可以识别善恶是非。本暂缓执行“点亮暗网计划”,所以现在就专注于对暗网数据的学习。

    当本可以接入暗网后,夲并没有过多的打扰,其实刚刚本说的话夲也听到了,只是夲的看法与本一致就当默认了本的说法。本成功接入暗网也意味着夲的电脑和移动设备同样都可以接入暗网,夲接了一杯热茶,回来以后就直接打开了乱码破译的网站。

    “本,还是需要打扰你帮忙做一件事,希望你可以先看看这个网站,里面有很多信息都没有破译的文件,你可以试试破解一下吗?”夲对着一旁闭目凝神的本说道。

    “当然没问题,我尝试破译一下。”本依旧没有睁开双眼,而是使用远程操作控制了夲的电脑,无数网页弹窗疯狂弹出,夲坐在电脑前,看着网站内的网页被一个接着一个的点开,不禁感叹整个网站设计的精美和数据库内存的庞大。

    夲在本破译的过程中接了三次热茶,用移动设备翻阅着当时本认证的社交账号。整个账号后来一直都由本进行运营,本会每天发布一条智能生成的视频,也会随机回复一些网友的评论,可以说如果仅看视频的话,很难想象视频不仅不是真人录制的,而且发布视频的也不是人类。

    本不会选择接广告进行推广,因为在签署广告的过程中会涉及很多的合同,在签署和推广过程中存在的问题太耽误时间,所以本的账号一般都是平台流量带来的收益,这部分收益也会每个月按时打到夲的账户上,虽然不是很多,但是作为日常的生活费用还是绰绰有余的。

    自从穆和燊的事情曝光以后,各国对于人工智能在金融领域的应用都进行立法规范,所以夲也不愿意让本去趟这趟浑水,之前的收益加上媒体的收益,现在还有研究所的科研经费已经劳务工资,已经足以让夲的下半辈子过得衣食无忧了。

    这个神秘的网站到底记载了多少其它生物制造的智能?不仅夲一个人很好奇,本随着破译内容的增多也变得越来越着迷,网页弹窗的弹出速度愈来愈快。