python+soup,已经获取到网页,但是怎么提取如下数组里的数据:
var uA = new Array();
var uD = new HashMap();
uA[0] = new Array();
uA[0][0] = "01";
uA[0][1] = "\xd6\xd0\xc1\xb8\xc1\xc9\xc4\xfe\xc1\xb8\xd3\xcd\xbd\xf8\xb3\xf6\xbf\xda\xb9\xab\xcb\xbe\xb4\xf3\xc1\xac\xb4\xa2\xd4\xcb\xc3\xb3\xd2\xd7\xb9\xab\xcb\xbe";
uD.put("a-F", 0);
uA[1] = new Array();
uA[1][0] = "02";
uA[1][1] = "\xb4\xf3\xc1\xac\xba\xcf\xc8\xda\xb2\xd6\xb4\xa2\xd3\xd0\xcf\xde\xb9\xab\xcb\xbe";
首先确认你贴出来的这些都是被Python采集的字符串,假设为 s.
即:s = """var uA = new Array();
var uD = new HashMap;
uA[0] = new Array();.........."""
然后你针对你感兴趣的内容来过滤出你要的信息(比如你只对双引号内的内容感兴趣)
参考代码如下:
# -*- coding: cp936 -*-输出:
>>>
01
中粮辽宁粮油进出口公司大连储运贸易公司
02
大连合融仓储有限公司
希望对你有所帮助~~
是jsp网页提取出的源码的一部分,我用print page显示出的一段,就是里面定义数组的,我想把数组的内容提 出来。好吧,刚学不久,不知道用什么方法提取,能不能说一下?
“xa2\xd3\xd0\xcf\xde”这种的是中文打印出的乱码,应该是uA[0][0] = "01";uA[0][1] ="大豆";类似这样的
嗯。忘记javascript这个事儿了。我对JS不太熟悉。 通常它不会直接用汉字,而是编码过后的东西。就是你上面写的所谓的“乱码”。这个方法我比较的推荐。
这里面的汉字。你直接在HTML里写出来。或者是赋值给某个HTML元素就可以显示出来了。