i added the mailing list to this since you did not hit reply to all and i have been the only one getting the replies. i think that is not fair and you should be allowed to contact the manufacturer directly. i did that with corsair cuz of some fault ram and im rma ing the paried set that i have back to them. in all honesty i would contact the manufacturer and bypass the vendor all together.<br>
<br><div class="gmail_quote">On Fri, Jan 16, 2009 at 10:11 PM, Francesco Pietra <span dir="ltr">&lt;<a href="mailto:chiendarret@gmail.com">chiendarret@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
To conclude, as it will be uninteresting to subscribers from here on,<br>
in Europe the customer can only contact the vendor of the Supermicro<br>
product. That gave no useful hint and the vendor does not answer any<br>
more. I asked which kind of test he wants to have in order to accept<br>
the mainboard for repair and he did not answer. Therefore, it could be<br>
a waste of time replacing the CPU (I have a spare one) unless it is<br>
just the CPU faulty, which (I believe) it is unlikely. If I prove that<br>
it was no faulty CPU, I could inform Beowulf and some friends here<br>
around about that discovery, or start a legal international action.<br>
Therefore, unless the CPU can be fully tested by software (and if<br>
faulty be replaced), I do nothing else that looking for another<br>
mainboard and assemble a new machine, this time for 16 logical<br>
processors. The more I have, the faster is the work. I understand that<br>
suggestions about the brand (obviously Supermicro is ruled out) can&#39;t<br>
be expected here.<br>
Thanks for all<br>
<font color="#888888">francesco<br>
</font><div><div class="Wj3C7c"><br>
On Fri, Jan 16, 2009 at 8:10 PM, Jon Aquilina &lt;<a href="mailto:eagles051387@gmail.com">eagles051387@gmail.com</a>&gt; wrote:<br>
&gt; in that case you need to contact them by phone and request an rma<br>
&gt;<br>
&gt; On Fri, Jan 16, 2009 at 3:48 PM, Francesco Pietra &lt;<a href="mailto:chiendarret@gmail.com">chiendarret@gmail.com</a>&gt;<br>
&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; That already tried. The slots from the bad bank are OK an &nbsp;another<br>
&gt;&gt; motherboard. Vice versa, good slots from another mainboard do not work<br>
&gt;&gt; on the bad bank.<br>
&gt;&gt;<br>
&gt;&gt; I am no system expert, just a chemist, but I can only figure that the<br>
&gt;&gt; memory controller of the CPU is damaged. Otherwise the fault has<br>
&gt;&gt; arosen in the motherboard (voltage controller or something else).<br>
&gt;&gt;<br>
&gt;&gt; francesco<br>
&gt;&gt;<br>
&gt;&gt; On Fri, Jan 16, 2009 at 10:10 AM, Jon Aquilina &lt;<a href="mailto:eagles051387@gmail.com">eagles051387@gmail.com</a>&gt;<br>
&gt;&gt; wrote:<br>
&gt;&gt; &gt; dunno bout another type of motherboard but do you have another stick of<br>
&gt;&gt; &gt; ram<br>
&gt;&gt; &gt; you can try in those sockets instead. if so it could be that you just<br>
&gt;&gt; &gt; have<br>
&gt;&gt; &gt; bad ram.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; On Fri, Jan 16, 2009 at 9:46 AM, Francesco Pietra<br>
&gt;&gt; &gt; &lt;<a href="mailto:chiendarret@gmail.com">chiendarret@gmail.com</a>&gt;<br>
&gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Hi:<br>
&gt;&gt; &gt;&gt; Running memtest86+ v. 2.11 is the first test I carried out, repeatedly<br>
&gt;&gt; &gt;&gt; and until completion. It did not detect the slots at the faulty bank<br>
&gt;&gt; &gt;&gt; and did not show errors for the remaining RAM (18GB). Otherwise, the<br>
&gt;&gt; &gt;&gt; 6GB at the faulty bank are OK. I would like to test via software the<br>
&gt;&gt; &gt;&gt; memory controller of the CPU at the faulty bank, which I believe is<br>
&gt;&gt; &gt;&gt; the last chance for the mainboard not being damaged. All CPUs have<br>
&gt;&gt; &gt;&gt; correct hypertransport and I have replaced two 1GB slots with 2GB<br>
&gt;&gt; &gt;&gt; slots. Though, the 20GB come short for some of my calculations.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; As the Supermicro mainbord is only 8 months old (during which period<br>
&gt;&gt; &gt;&gt; it managed all 24GB RAM), I expected that Supermicro Europe takes<br>
&gt;&gt; &gt;&gt; action in some way. They simply stopped answering after having<br>
&gt;&gt; &gt;&gt; suggested something totally uninteresting.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Therefore, in assembling a new 4 quad-core UMA system, I am looking<br>
&gt;&gt; &gt;&gt; for another brand of mainboards. Suggestions?<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; francesco<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; On Thu, Jan 15, 2009 at 10:21 PM, Jon Aquilina &lt;<a href="mailto:eagles051387@gmail.com">eagles051387@gmail.com</a>&gt;<br>
&gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt; try running memtest+86 its a cd that you boot on to that tests the<br>
&gt;&gt; &gt;&gt; &gt; memory<br>
&gt;&gt; &gt;&gt; &gt; leave it running for a few hrs to makes sure it is the ram or<br>
&gt;&gt; &gt;&gt; &gt; sockets. i<br>
&gt;&gt; &gt;&gt; &gt; am<br>
&gt;&gt; &gt;&gt; &gt; not sure about how to test the cpu.<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; On Tue, Jan 13, 2009 at 10:26 AM, Francesco Pietra<br>
&gt;&gt; &gt;&gt; &gt; &lt;<a href="mailto:francesco.pietra@accademialucchese.it">francesco.pietra@accademialucchese.it</a>&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Hi:<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; I am posting here from a suggestion on the Debian amd64 site. My<br>
&gt;&gt; &gt;&gt; &gt;&gt; original posting to the mainboard factory/vendor in Europe only<br>
&gt;&gt; &gt;&gt; &gt;&gt; resulted in uninteresting suggestions, and they did not answer any<br>
&gt;&gt; &gt;&gt; &gt;&gt; more.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; My question is directed to the attention of users familiar with<br>
&gt;&gt; &gt;&gt; &gt;&gt; multisocket UMA-type mainboards based on 875 dual opteron AMD CPU.<br>
&gt;&gt; &gt;&gt; &gt;&gt; My<br>
&gt;&gt; &gt;&gt; &gt;&gt; own is Supermicro H8QC8 with chipset nVidia CK804 and AMD 8132,<br>
&gt;&gt; &gt;&gt; &gt;&gt; driven<br>
&gt;&gt; &gt;&gt; &gt;&gt; by Debian Linux amd64 lenny.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; One of the CPUs has suddenly lost viability to its<br>
&gt;&gt; &gt;&gt; &gt;&gt; 4-slots memory bank (shut down the machine in order, the problem<br>
&gt;&gt; &gt;&gt; &gt;&gt; arose<br>
&gt;&gt; &gt;&gt; &gt;&gt; on<br>
&gt;&gt; &gt;&gt; &gt;&gt; next<br>
&gt;&gt; &gt;&gt; &gt;&gt; loading Linux). Still, the CPU cores are OK, hypertransport links<br>
&gt;&gt; &gt;&gt; &gt;&gt; are<br>
&gt;&gt; &gt;&gt; &gt;&gt; fully working, parallelization to both Amber 10 and NWChem 5.1 is<br>
&gt;&gt; &gt;&gt; &gt;&gt; fully provided, but one of the CPUs must be slower, having to borrow<br>
&gt;&gt; &gt;&gt; &gt;&gt; memory from the other<br>
&gt;&gt; &gt;&gt; &gt;&gt; banks. The hardware status, after a period of complete darkness, is<br>
&gt;&gt; &gt;&gt; &gt;&gt; described in the attached lshw_deb64_7Jan2009.txt.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; As each bank of Kingston DDR1 is filled 2+2+1+1 GB, I identified the<br>
&gt;&gt; &gt;&gt; &gt;&gt; faulty bank, removed all slots from there, and replaced the 1+1 GB<br>
&gt;&gt; &gt;&gt; &gt;&gt; slots at another bank with 2 + 2 GB from the faulty bank, so that<br>
&gt;&gt; &gt;&gt; &gt;&gt; now<br>
&gt;&gt; &gt;&gt; &gt;&gt; the computer is at 20GB. The situation is described in the attached<br>
&gt;&gt; &gt;&gt; &gt;&gt; lshw_deb64_lessCPU2_scrambling1G_2G_CPU4_7Jan2009.txt. Actually,<br>
&gt;&gt; &gt;&gt; &gt;&gt; identification of the CPU (CPU2) related to the faulty mem bank is<br>
&gt;&gt; &gt;&gt; &gt;&gt; insecure: I just considered the nearest CPU to the faulty bank. The<br>
&gt;&gt; &gt;&gt; &gt;&gt; manual is not helpful to this regard .<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; I understand that, in order to remove non-mainboard causes, I should<br>
&gt;&gt; &gt;&gt; &gt;&gt; be certain that a CPU has not lost memory control. Since replacing<br>
&gt;&gt; &gt;&gt; &gt;&gt; (I<br>
&gt;&gt; &gt;&gt; &gt;&gt; have one spare second-hand CPU) or scrambling, the CPUs is quite<br>
&gt;&gt; &gt;&gt; &gt;&gt; troublesome, and risky, in my context (there is very little space<br>
&gt;&gt; &gt;&gt; &gt;&gt; around the mainboard in the rack that I engineered to accept the<br>
&gt;&gt; &gt;&gt; &gt;&gt; mainboard). Ventilation is excellent, however.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Therefore, is it any software way to check if the CPUs are fully in<br>
&gt;&gt; &gt;&gt; &gt;&gt; order, including the memory controller? lshw and other software<br>
&gt;&gt; &gt;&gt; &gt;&gt; provided only partial help in my hands.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Also any other suggestion would be greatly appreciated.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Thanks for your kind attention<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; francesco pietra<br>
&gt;&gt; &gt;&gt; &gt;&gt; _______________________________________________<br>
&gt;&gt; &gt;&gt; &gt;&gt; Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; To change your subscription (digest mode or unsubscribe) visit<br>
&gt;&gt; &gt;&gt; &gt;&gt; <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; --<br>
&gt;&gt; &gt;&gt; &gt; Jonathan Aquilina<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; --<br>
&gt;&gt; &gt; Jonathan Aquilina<br>
&gt;&gt; &gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Jonathan Aquilina<br>
&gt;<br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Jonathan Aquilina<br>
<br />-- 
<br />This message has been scanned for viruses and
<br />dangerous content by
<a href="http://www.mailscanner.info/"><b>MailScanner</b></a>, and is
<br />believed to be clean.