| Jing's profile难得浮生半日闲PhotosBlogLists | Help |
|
难得浮生半日闲June 22 Text mining,Wikipedia和Web实验 Text Mining把一个文本集合作为一个客观的研究对象,试图对其中的信息进行聚合,总结出不同角度的信息来。 由于是让计算机来做这件事情, 它的优点是效率高, 可以是普通人阅读和理解的成千上万倍, 但是它的理解可能既不深刻也不准确。 Wikipedia让人看到了另外一种可能性。在这里,计算机不是自己去对信息进行自动的聚合,而是建立一个公共的环境,在这么一个良性环境中, 它会激励人们贡献出自己知识, 激励人们互相协作来完成这种知识的聚合。 无疑Wikipedia是极其成功的,没有一个Text mining算法可以做得如此之好。 在上述的两个应用中,可以看到计算机扮演的两种不同的角色: 前者是一个劳动者, 辛辛苦苦地做着人们希望它做的事情; 后者犹如是人类社会中一个法律制度框架,一套好的制度可以鼓励人们最大程度地发挥他们的潜力。 现在计算机科学的研究, 更多的拿它当作一个苦劳力来用: 科学计算-计算员,网络传输-火车皮, 数据挖掘-数据分析员。 但是, 后者的作用无疑也极其巨大, 是一个值得认真研究的话题。 譬如有“网络暴民”一说, 我不知道它的确切含义。 但是网络上的无中生有的虚假新闻, 尖酸刻薄的谩骂等不良的现象是我们所司空见惯的。 现在也有一定的办法来处理这些问题, 譬如通过计算一个新闻的质量来评估它的真实程度, 通过关键字过滤来防止谩骂和不良信息的产生。但是,这都是一种事后诸葛治标不治本的做法,能不能通过程序自动对网民行为的激励和惩罚,促使网民之间的互相监督, 从而营造一个真正和谐的网络环境呢? 可以由网站来试行它们的这种实验。 然后其他的网站可以借鉴这种优良的经验。 甚至全民的立法和政策制定部门都可以从中借鉴有益的成分。 没有完全的自由,有的只有代码规定的好的或者坏的自由形式--无论作为法律条文的代码还是计算机代码。 相关的书:"Code" by Lawrence Lessig, "Infotopia" by Cass R. Sunstein May 26 阴阳相隔的十相思周末的时候,偶然在土豆上瞥到一期百姓戏台毕春芳专辑, 我向来喜欢这个安乐王, 八十多岁的人了,唱红日绿树,唱叹五更,唱正月十五是元宵,还是底气十足, 还是两个眼睛咕噜咕噜地转。 可惜的是,半个世纪的搭档戚雅仙不在了。 谈到了02年两人的最后一次合作,主持人很不识相地问老太太是不是想再跟老戚合作一场, 一向笑呵呵的老毕沉重了,叹了一声说不可能了。 于是,有了巨强的十相思的登场。 一边是廿年前老戚的视频和录音,一边是老毕的现场真唱, 唱的是楼台会的十相思(这里是一个音配像)。 贤妹妹,我想你,神思昏昏寝食废 梁哥哥,我想你,三餐茶饭无滋味 贤妹妹,我想你,衣冠不正无心理 梁哥哥,我想你,懒对菱花不梳洗 贤妹妹,我想你,提起笔来字忘记 梁哥哥,我想你,拿起针来线忘记 贤妹妹,我想你,身外之物都抛弃 梁哥哥,我想你,荣华富贵不足奇 贤妹妹,我想你,哪日不想到夜里 梁哥哥,我想你,哪夜不想到鸡啼 你想我,我想你, 今生料难成连理呀 词是老词,调是旧调,情是真情。 阴阳相隔,老毕眼里亮亮的…… May 24 别人的命儿我不会算,自己的命儿算的准(续)学者们在探索着世界的奥秘, 他们关心的是宇宙中一种普遍的规律。 工程师们运用这些规律,使得我们的生活发生着翻天覆地的改变。他们发现这个世界的过程中,都使用了一种非常有效的方法:科学方法。 这种方法来源于常识,只是被科学家拿来应用了。 2006年的春天, 我肠胃不好住进了北医三院。 根据肠镜检查的结果是结肠有溃疡。医生分析了造成这种症状的原因可能有三种:克罗恩病,溃疡性结肠炎,或者普通急性肠炎。 前两种病属于免疫系统的疾病,较严重。 它们可能会导致多处溃疡, 而我又是口腔溃疡的常发户,所以很可能是前两种病。 为了进一步寻找证据, 医生采用两种诊断办法。 第一种办法是继续寻找发生溃疡的组织, 如果再更多的地方发现严重溃疡,那么前两种病的几率就会增加。 于是, 就开始胃镜和小肠镜的检查, 也有了我平生第一次疼痛导致的休克。 另外一种办法是药物实验, 先给我吃的是消炎药。 如果吃了一段时间消炎药发现症状减轻,就很可能普通肠炎。 经过了一个月的两类实验,实验发现: 其他地方没有溃疡; 消炎药服用几周后溃疡消失。 于是医生得出了普通炎症的结论,我也虚惊一场光荣出院。 在这个过程中,医生凭借两种信息来对我进行诊断。 一种是领域知识, 也就是医学中描述的病、症、药三者的关系。 一种是有目的的观察证据, 医生根据初步判断的可能性,指导通过药物和检查相结合来进行实验。 科学发现一般就是包含这两种信息:一种是部分前人已经积累的数据以及根据这些数据获得的结论,这些结论被假设是对的;一种是有目的的观察的结果,它们在人 们碰到问题的时候为了解答它而找到的新的数据。 第一种信息是已经存在了的,之所以要活到老学到老,就是一个不断累积这种信息。 第二种信息却只能通过自己积极主动的行为来获得的。它需要第一种信息的指导, 更需要我们自己的思考, 更需要思考以后的行动。 一旦第二种信息不能解决问题,譬如如果我当时吃了消炎药没有用,那么就需要进一步设计方法来获取更多的第二种信息。 research就是一个不断search第二种信息的过程。 当第二种信息可以解决问题了以后,在解决问题中获得数据和结论有可能转变成第一种信息--一种可能被别人重用的信息。积极的思考和行动是这种信息转换的桥 梁。 科学家们使用这种方法推动了这个世界几百年来的迅速发展。这个方法本身其实是很简单的,它再不经意间已经被每一个人使用来解决日常生活中的问题。当我停下来回顾我每一天每一时每一分每一秒的生活,发现了很多疑惑和问题的时候,这种方法也能帮助我去解决这些问题。 首 先需要积累第一种信息。 读书,做事,交谈以及生活中经历的每一件事都在为我积累着第一种信息。 但是理论有的时候是不正确的,经验有时是有限的,在解决问题的时候需要挑选里面的一部分。 很多传记和号称成功学的书籍, 翻来覆去的倒腾各种"好"的变种的形容词。很多的经验是和具体的背景有关的,比如他人的性格社会环境。像唐骏"我的成功可以复制"之类的说法是不可信的, 可以复制的东西绝对是机器是软件绝对不是人。广泛地这样的信息的好处是可以给我们提供一些可能性。 就像医学知识给医生提供一种症状对应的病有若干的可能性一样的。 这些已经存在的可能性可以成为是思考和实验的起点。 更加重要的是第 二种信息,我们需要根据问题去设计获取哪些关于我自己的第二种信息。第二种信息的收集一定是针对一个具体的问题的,而且问题越具体,相关的信息就越容易收 集。当然也可以很泛泛的收集,我以前写日记就是一种泛泛的收集。回忆自己的一念一言一行, 用日记的形式记录下来。 日记倾向于记录好玩有趣的事情,但是生活并不是每天都那么精彩的, 随着好奇心的消退,生活越来越平淡乏味,好像都是一成不变的,似乎没有什么东西可以记录。 于是在若干年间, 我抛弃了写日记的习惯。 还有一段时间的日记纯粹是自我批判,我今天做错了什么什么什么事情,下次一定要改。这样地日记也很恐怖,每次写日记的过程几乎是一场炼狱生活。这种受虐狂 的生活也就断断续续持续了几周就结束了。和带着问题看书会更加高效一样,带着问题记录生活也会有这样的效果。 比如研究生生活被赐予了很大的行动自由,但是很长时间内我并没有努力争取思想自由。经常在主动思考的过程中,就思想开小差,去网上冲浪或者看电影或者读小 说,乃至于躲在床上连续几十个小时, 沉浸在一种完全的被动接受信息毫无自我意识的慵懒状态。 每次进入这种状态需要持续几天才能脱离出来,就像进入了一个深渊一样很长时间难以自拔。 每次从这种状态解脱出来以后就会感觉深深的内疚, 但是过了一段时间以后, 就又会进入这种状态。 就像犯了毒瘾一样, 难以自拔。 我的问题是:进入深渊的入口是什么?我怎么避开这个入口? 在以后的几个月时间内,我开始观察自己, 记录自己。 当再次进入并脱离了这个状态以后,我查看一些临近时期的记录。 这些记录并不是毫无规律可循的,我发现了一些规律,我进入这些状态的时候,很多是经历了一段比较辛苦的工作,这段时间没有娱乐活, 并且面临着一些困难的时候。 出于对困难的恐惧,我试图逃避它,采用的方式就是进入一种消除自我意识的状态。 为了验证这个规律,我控制每天的工作量,规定每天必须有一定的玩的时间,对于避免对困难的恐惧,我试图每天思考生活中最大的困难是什么, 在日记里尽量用一种显明的方式表述它。有形的困难比无形的困难好对付的多。采用了这两种策略以后,发现进入这种深渊的可能性确实慢慢地减少了。 当然,在这个过程里面,有很多子问题需要不断的调整优化,每天玩的时间控制在多少比较合适? 每天花多少时间做记录?其实直到现在,这个实验依旧在进行之中。 因为我还会进入深渊,但是频率和持久时间已经降低了很多了。 类似这 样的过程就是一个收集第二类信息的过程。 为了了解某个事情为什么会发生,收集这个事情相关的信息,找出可能的联系。主动改变那些可以通过自我努力改变的相关信息,看看是否对这个事情有影响。如果 有影响的,说明这是相关的。我们每天过着重复的生活,如果简单的进行重复,就和机器没有什么差别了。通过科学方法, 找出里面的因果关系,找出可以主动改变使它变得更好的因素, 就可以使得这种简单重复发生变化,从而每天都是一个新颖得生活,每天都是一个新颖的人。 这样的改造自己科学方法,只能由自身来运用。没有两片相同的树叶,何况人呢?每一个人都会碰到截然不同的问题,每个人都有根据其性格特征解决这种问题的方 案。别人的方案,或者科学研究的结果,只能提供一种可能性,最终什么在自己身上work,只能由自己来实验。 这种方法是局限的。 它只能用在反复重复的生活中,而很多事情生命中只有一次,是不能被反复拿来做实验的。 二来是如果把全部生活投入到这种科学方法中去,整个思想会被特定的问题所局限住, 因此需要通过交流接受更多的外部信息来突破这种局限性。 May 20 别人的命儿我不会算,自己的命儿算的准这是一个怎么样的人? 用形容词来形容一个人是毫无意义的,因为它们其实就是"好"和"不好"的变种。"勇敢"是"好"的变种,"鲁莽"是不好的变种,"善于表达"是好的变种, "爱显摆"是不好的变种, "幽默"是好的变种,"油腔滑调"是不好的变种,如此等等。它们对于真正了解一个人没有太大帮助,只是一种表达感情的方式,或被用作拍马屁和损人的工具。 社交网站上有 一类非常热门的活动,是一个人问自己的朋友几十个问题,然后被问的人回答后继续把问题传递给更多的人,这种问题于是像病毒一样指数级地传播着。别人可以通 过这些具体的问题来阅读一个人。这比单纯的无意义的形容词有了很大的改进。 但是,这些问题都是回答问题这个人想出来写出来的,不是这个人做出来的,真的可以通过这些他写的东西来读他吗?听其言而要观其行, 光看文字是不会有太大的帮助,笔下描绘的自己都会有"伪君子"(或者近年流行的"伪小人")的嫌疑。在一起生活,天天观察为人做事,会对一个人了解的深刻 的多。但是也是不保准的,结婚几十年突然一天发现一个不认识的人站在眼前也会偶尔发生的。绍兴文戏梁祝身边的书童丫鬟,一个叫四九一个叫银心,浙江话里是 “时久见人心”,唱的是"同窗三载情似海",可是山伯连英台是男女都辨不清。 人太复杂了,要了解一个人很难了。 即使我知道一个人每时每刻在做些什么想写什么说些什么,我真能了解这个人吗?很明显这个人就是我自己。 我常常很迷茫,不知道自己喜欢什么擅长什么, 不知道怎样才能使得自己更加积极愉快地生活。这些都是抽象的大问题,每时每刻还会碰到关于自己的小问题,基于对自己的认识,做着每一秒钟的选择。 大多数时候,我逃避着这种思考的自由, 凭着一种冲动,或者一种别人的意见来解决这些小问题。 但是,这真是一种适合我的解决吗? 如果没有对自己的了解,怎么才能看知道这是不是适合我的解决呢?这种小问题解决的累加构成了我的整个世界,在这种态度下, 我的世界不是我自己所决定的,而是一种随便的冲动,一种别人的意见所决定的。 我不是一个我自己的人。 更可怕的是,随着时间的流逝,这种多少带有随意色彩的解答变成一种习惯,我对这些小问题再也视而不见。 一个没有自发性问题的世界是很可怕的, 当外部压力一旦取消,我就无所适从,只好用某种消遣的方式打发时光。什么消遣方式是不重要的,重要的是避免让自己一个人静下来自由的思考。 我已经只能在有压力的情况下做奴性般的思考,我已经失去了自由的主动的思考的能力了。 我要停下来,逼视生活中的这些小问题,不断地探索自己是一个怎么样的人, 找到每个小问题适合自己的解决。 May 04 怀念过去今天是五四,一个被称作北大生日的日子。看了一组纪念文章,照例怀念了一阵。 年岁越大,生命过往的值得怀念的也越多,总会周期性的照例怀念一下:回家一散步就会不知不觉地就走到日益逼仄冷清危房林立的东门大街,回想边走边吃山核桃,骑一辆坐不上去的自行车,和同学比赛走路的情景; 一到毕业时节就又翻出当年四十楼以及万柳的照片来看,回想睡走廊吃烧酒火锅盐水鸭的往事…… 每次忆一阵念一阵呆一阵叹一阵,叹什么?年华逝去? 少年蹉跎?友伴散落?我也不知道。 不过有一点是肯定的,回忆中的东西显得特别的美好。 美好的留在脑海里,尴尬的变得好玩了,无聊的被时间冲刷干净了。 通过大脑一段时间的封存,那段历史被默默地在压缩整理加工成了一件美的艺术品。 既然每个人的记忆都是一个制造美的大师,我们能不能能动地模仿它来加工当下的体验呢? March 27 延年益寿眼看着这天下变成了九十后的天下,眼看着同学们一个个结婚生子, 不禁有点茫然起来。 扳着指头算, 小学中学一共经历了十二年, 而上大学以后也已经有九年了。 可是这十二年何其长也, 这九年何其短也。 时间似乎有一个加速度, 风驰电掣地越走越快。 再当我扳着指头算的时候, 会不会已经是满头白发了? 为什么会造成这种感觉的呢?那十二年于我, 是天翻地覆的变化, 无论是身体上还是心智上。 和很多小朋友一样, 我家的房门背后记录着我的成长, 几几年几月几号, 划着一条线, 身高多少。 知识的掌握,处理问题的能力,也可以说是再日新月异地进步着。 可是这九年于我, 产生的变化却极其有限, 我几乎和一个植物人一样地静止了。 人的感觉中衡量时间的标尺是什么, 真的是年月日时分秒这样的物理单位吗? 更可能是一种变化: 世界的变化和自己的变化。 运动起来吧, 和世界接触, 和生命接触, 产生出有益的显著的变化来, 让一年的生命可以抵上十年。 看牙记-纪念不再拥有的31,32号牙 "身体发肤,受之父母"。 不过这个身体和发肤是不太一样的,身体是永久的不可再生的, 而发肤是可以源源不断的生长代谢的, 所以牙齿应该是属于身体。 小时候换完牙的那时候, 父亲郑重其事地告诉我说, 这次的新牙, 你要好好珍惜, 它们是要陪你一辈子的。可是, 我忘记了这句话, 直到失去了唯一的31,32号牙。父母都是懂得珍惜的人, 他们保持着每天刷两次牙以及不定时漱口的好习惯, 并以此影响着我。 不过慵懒是我的本性, 每次刷牙都是草草的不到一分钟完事, 真真的形式主义。 真正的牙疼始于寒假, 一月份是最受煎熬的一个月。 由于没有牙医保险, 所以不敢贸然去看。 死马当活马医, 茶叶漱口水生姜慢慢地晋级到了花椒和止疼片。 一月底的一个夜晚, 在经受了几十个小时的疼痛难眠以后, 最后还是决定破财消灾了。 在众人的帮助下, 一共去看了四次, 拔牙-根植-临时假牙-永久假牙。 终于, 我能够吃东西了, 终于, 我不再是无齿青年了, 终于, 唯一的31,32号牙永久地离去了。 好在我还有其他的30颗牙, 它们都是唯一的, 一个也不能少! 谢谢在病痛中关心和帮助我的栋轩澍琛! |
|||||
|
|