第四百九十七章 有些人一出生就不一样啊

  网意搜索引擎。
  在后世拥有国内唯一的互动性开放式目录管理系统!
  最关键的是,网意基本搜索的适合,查询结果严谨细致,能帮助用户找到最重要、最相关的内容。例如,当网易搜索对网页进行分析时,它也会考虑与该网页链接的其它网页上的相关内容。网易搜索还会先列出那些搜索关键词相距较近的网页。
  而在搜索多个词语的时候,网意搜索只会返回那些符合用户的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果用户想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行了。
  这完全就符合张伟现有需要的条件啊,网意搜索这个名字在后世虽然并不太出名,可是说到另外一个名字相信很多人就能耳熟能详了——有道搜索!
  其中有道搜索包括网页搜素、购物搜索、海量词典、视频搜索、图片搜索等一系列,里面的智能结果和精选搜索就是张伟现在想要的模式,他马上回忆起搜索流程,结合自己的猜测。
  按照当时搜索时的情况,张伟开始推测,很多部分应该和传统搜索没什么两样,那么新式搜索需要需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的资源管理器队列,然后,要根据一定的搜索策略从队列中选择下一步要抓取的网页资源,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被抓取的网页西药存贮,再进行一定的分析、过滤,并建立索引,以便之后的查询和检索!
  也就是说,前提需要一个自动抓取万维网信息的程序或者脚本。
  这些话对于常人来说都是废话,可是张伟知道,对于专业人士就不是废话了!
  克里斯等人不就是需要个流程吗?
  张伟迅速拿起笔和本子记录了下来,这些根本不用动脑子,因为都是自己亲身经历过的事情,只需要按照步骤稍加添加自己的想法就可以。
  瑶瑶玩了会,道:“张伟,你要不要玩电脑?”
  “暂时用不上了。”张伟刷刷在本子上写着。
  瑶瑶调皮地对着柳倾城做了个鬼脸,“看,张伟不要用,我再玩一会。”
  柳倾城哭笑不得道:“你呀你,那就再玩一小会,眼睛离电脑远点。”
  瑶瑶啪嗒啪嗒按照鼠标,叫道:“姐姐,你过来教我打字。”
  张伟抬头笑道:“原来你不会打字啊?”
  一行!
  两行!
  五行!
  他很快就写完了!
  心情彻底兴奋了起来,这些东西写出来,估计能帮到克里斯他们的忙吧?张伟期待着!
  ……
  很晚才睡觉。
  可是张伟老早就起来了。
  再次拉着郑文跑了一圈网景。
  刚一走进去,就看见办公区的工作人员都在忙碌,一看见张伟和郑文后,这些员工就问好起来。
  “BOSS。”
  “郑总。”
  “张先生。”
  众人都露出了笑容。
  正巧,克里斯刚刚过来工作。
  张伟微笑道:“你们先忙着,克里斯,你过来一下。”话刚说完,瞧见负责研发这款产品的技术人员都走了进来,他补充了一句,“你们都过来,我和你们说点事情。”
  克里斯道:“什么事?我们还要忙着研发产品,昨晚稍微有点眉目。”
  罗曼嘿道:“是啊,或许这是一个突破也说不准。”
  泰勒打了个哈欠,道:“可把我累坏了,昨晚两点多才睡,清早六点多就爬起来了。”
  看得出来大家都非常疲劳。
  张伟和郑文对视了一眼,也没有上楼,直接把众人拉到一旁角落的办公桌,又叫人拿来椅子。
  众人坐下。
  “那我就说一下我猜测的流程,你们听听有什么启发没有。”张伟拿出小本子翻开。
  闻言,克里斯一愕。
  泰勒也愣了愣。
  罗曼和其他人也有些呆。
  你说什么?你猜测的流程?这他妈也能猜测啊还能对我们有启发?昨天还说要找人问问,怎么现在又变成你自己猜测了?这么多精英技术人员攻克了许久的都只是稍有眉目而已,你一个连互联网都不懂的人光靠猜测就行了?我去,你以为你是上帝啊?是造物主啊?怎么想都能变成现实?
  众人已经全部无语。
  克里斯憋了半天,也没好意思说别的,“那你说我们听听。”
  张伟也知道他们不相信,道:“反正你们就听听看又没什么损失对不对?”
  泰勒难以置信道:“会对我们有启发?”
  “应该会有吧。”张伟瞟了眼本子上的文字,说道:“需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的资源管理器队列。”
  郑文不太懂,瞟了瞟众人。
  可是眼前这些人懂啊,他们乍一听的感觉……简直惊艳!按照张伟所说的里面包含了三个步骤,一,用户提供种子URL;二,种子URL进入linkbase中新URL队列中;三,调度模块选取url进入到抓取模块的待抓取队列中,大家都是专业人士,一听就知道完全可行啊!张伟这个推测简直太棒了!听着这个推测,他们都面面相觑,怎么这么简单的事情他们就没想到呢?在场十几个精英都没想到的事情,居然让一个不懂网络的人想到了!
  克里斯忍不住赞叹道:“好创意!”
  张伟笑眯眯道:“我继续说下去,然后根据一定的搜索策略从队列中选择下一步要抓取的网页资源,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被抓取的网页西药存贮,再进行一定的分析、过滤,并建立索引,以便之后的查询和检索。”
  克里斯兴奋了起来,道:“那就是抓取模块读取站点的配置文件,可以按照执行的频率进行抓取,等到抓取到结果就返回pipeline接口中,这就是完成了抽取!”
  罗曼也道:“然后把新发现的连接在linkbase里面进行dedup,并push到linkbase的新URL模块里面,最后让调度模块选取url进入抓取模块的待抓取队列,之后就能反馈了啊!”
  张伟和郑文不懂这些,听得雨里雾里,可是接下来这些专业人士说的话让他们至少明白一点,这个推测可行!
  泰勒结结巴巴道:“这……这就是抓取流程了?”
  克里斯非常坚定道:“我觉得有百分之八十的成功率!可以试试看!”
  听到最专业的克里斯这么说,十几个人都非常惊奇地看了一眼张伟,他们怎么也想不明白,一个网络上的外行,却能大致推算出流程?难道这就是天生的妖孽?怪不得人家十几岁就能执掌庞大的资产!怪不得华金资本被经营的有模有样!上天果然是有区别的,有些人一出生就他妈和别人不一样啊!(未完待续。)

上一章目录+书签下一章