<div>I think I&quot;d just grep for </div>
<div>&lt;non-numeric&gt;13&lt;non-numeric&gt;</div>
<div>in all the scripts and confiuration files. Of course with my luck it would be 013 :-)</div>
<div>Peter<br><br>&nbsp;</div>
<div><span class="gmail_quote">On 3/14/07, <b class="gmail_sendername">Michael Will</b> &lt;<a href="mailto:mwill@penguincomputing.com">mwill@penguincomputing.com</a>&gt; wrote:</span>
<blockquote class="gmail_quote" style="PADDING-LEFT: 1ex; MARGIN: 0px 0px 0px 0.8ex; BORDER-LEFT: #ccc 1px solid">You mentioned your own code does not exhibit the issue but mpp-dyna<br>does.<br><br>What does the support team from the software vendor think the problem
<br>could be?<br><br>Do you use a statically linked binary or did you relink it with your<br>mpich?<br><br>We have ran lstc ls-dyna mpp970 and mpp971 across more than 16 nodes<br>without any<br>issues on Scyld CW4 which is also centos 4 based.
<br><br>Michael<br><br>-----Original Message-----<br>From: <a href="mailto:beowulf-bounces@beowulf.org">beowulf-bounces@beowulf.org</a> [mailto:<a href="mailto:beowulf-bounces@beowulf.org">beowulf-bounces@beowulf.org</a>]
<br>On Behalf Of Robert G. Brown<br>Sent: Wednesday, March 14, 2007 9:37 AM<br>To: Peter St. John<br>Cc: Joshua Baker-LePain; <a href="mailto:beowulf@beowulf.org">beowulf@beowulf.org</a><br>Subject: Re: [Beowulf] Weird problem with mpp-dyna
<br><br>On Wed, 14 Mar 2007, Peter St. John wrote:<br><br>&gt; I just want to mention (not being a sysadmin professionally, at all)<br>&gt; that you could get exactly this result if something were assigning IP<br>&gt; addresses sequentially, 
e.g.<br>&gt; node1 = foo.bar.1<br>&gt; node2 = foo.bar.2<br>&gt; ...<br>&gt; and something else had already assigned 13 to a public thing, say, a<br>&gt; webserver that is not open on the port that MPI uses.<br>&gt; I don&#39;t know nada about addressing a CPU within a multiprocessor
<br>&gt; machine, but if it has it&#39;s own IP address then it could choke this<br>way.<br><br>On the same note, I&#39;m always fond of looking for loose wires or bad<br>switches or dying hardware on a bizarrely inconsistent network
<br>connection.&nbsp;&nbsp;Does this only happen in MPI?&nbsp;&nbsp;Or can you get oddities<br>using a network testing program e.g. netpipe (which will let you test<br>raw sockets, mpi, pvm in situ)?<br><br>&nbsp;&nbsp;rgb<br><br>&gt;<br>&gt; Peter<br>
&gt;<br>&gt;<br>&gt; On 3/14/07, Joshua Baker-LePain &lt;<a href="mailto:jlb17@duke.edu">jlb17@duke.edu</a>&gt; wrote:<br>&gt;&gt;<br>&gt;&gt; I have a user trying to run a coupled structural thermal analsis<br>&gt;&gt; using mpp-dyna (mpp971_d_7600.2.398).&nbsp;&nbsp;The underlying OS is centos-4
<br>&gt;&gt; on x86_64 hardware.&nbsp;&nbsp;We use our cluster largely as a COW, so all the<br>&gt;&gt; cluster nodes have both public and private network interfaces.&nbsp;&nbsp;All<br>&gt;&gt; MPI traffic is passed on the private network.<br>
&gt;&gt;<br>&gt;&gt; Running a simulation via &#39;mpirun -np 12&#39; works just fine.&nbsp;&nbsp;Running<br>&gt;&gt; the same sim (on the same virtual machine, even, i.e. in the same<br>&#39;lamboot&#39;<br>&gt;&gt; session) with -np &gt; 12 leads to the following output:
<br>&gt;&gt;<br>&gt;&gt; Performing Decomposition -- Phase 3 03/12/2007<br>&gt;&gt; 11:47:53<br>&gt;&gt;<br>&gt;&gt;<br>&gt;&gt; *** Error the number of solid elements 13881 defined on the thermal<br>&gt;&gt; generation control card is greater than the total number of solids in
<br><br>&gt;&gt; the model 12984<br>&gt;&gt;<br>&gt;&gt; *** Error the number of solid elements 13929 defined on the thermal<br>&gt;&gt; generation control card is greater than the total number of solids in<br><br>&gt;&gt; the model 12985 connect to address $ADDRESS: Connection timed out
<br>&gt;&gt; connect to address $ADDRESS: Connection timed out<br>&gt;&gt;<br>&gt;&gt; where $ADDRESS is the IP address of the *public* interface of the<br>&gt;&gt; node on which the job was launched.&nbsp;&nbsp;Has anybody seen anything like
<br>&gt;&gt; this?&nbsp;&nbsp;Any ideas on why it would fail over a specific number of CPUs?<br>&gt;&gt;<br>&gt;&gt; Note that the failure is CPU dependent, not node-count dependent.<br>&gt;&gt; I&#39;ve tried on clusters made of both dual-CPU machines and quad-CPU
<br>&gt;&gt; machines, and in both cases it took 13 CPUs to create the failure.<br>&gt;&gt; Note also that I *do* have a user writing his own MPI code, and he<br>&gt;&gt; has no issues running on &gt;12 CPUs.<br>&gt;&gt;<br>
&gt;&gt; Thanks.<br>&gt;&gt;<br>&gt;&gt; --<br>&gt;&gt; Joshua Baker-LePain<br>&gt;&gt; Department of Biomedical Engineering<br>&gt;&gt; Duke University<br>&gt;&gt; _______________________________________________<br>&gt;&gt; Beowulf mailing list, 
<a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a> To change your subscription<br><br>&gt;&gt; (digest mode or unsubscribe) visit<br>&gt;&gt; <a href="http://www.beowulf.org/mailman/listinfo/beowulf">http://www.beowulf.org/mailman/listinfo/beowulf
</a><br>&gt;&gt;<br>&gt;<br><br>--<br>Robert G. Brown&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<a href="http://www.phy.duke.edu/~rgb/">http://www.phy.duke.edu/~rgb/</a><br>Duke University Dept. of Physics, Box 90305 Durham, N.C. 27708-0305
<br>Phone: 1-919-660-2567&nbsp;&nbsp;Fax: 919-660-2525&nbsp;&nbsp;&nbsp;&nbsp; <a href="mailto:email:rgb@phy.duke.edu">email:rgb@phy.duke.edu</a><br><br><br>_______________________________________________<br>Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">
Beowulf@beowulf.org</a> To change your subscription<br>(digest mode or unsubscribe) visit<br><a href="http://www.beowulf.org/mailman/listinfo/beowulf">http://www.beowulf.org/mailman/listinfo/beowulf</a><br></blockquote></div>
<br>


!DSPAM:45f82d4987171246014193!